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1 . תקציר 

בעבודה זו נסקרו טכניקות מרכזיות ועדכניות להפחתת התאמת יתר שהפכו כיום את רשתות נוירונים עמוקות לשיא 
הטכנולוגיה, בבעיות של זיהוי אובייקטים, זיהוי דיבור, וסיווג נתונים מגוונים בעלי יחס מאוד מורכב בין הקלט לפלט. 
הטכניקות שנסקרו הן: 

!ססקס־נס 81 8 > 1 ־זס׳\\ 01 ח 31 ־ 0001 ־ 00111101 ־ 1 80 ־ 31 ק 8 ק 000 י §ח 1 ח 31 ־ו 0-1 ־ 1 ק 1 ) 80 4 \־ 01 קס 8 ח 11 
טכניקות אלו הושוו, ונותחו בהרחבה, גם בהיבט התיאורטי. 

§ 3111111 ־ 6-11 ־ 1 ק 1 > 086 ־ 61 (ן 1111811 פותחה ע״י הינטון ושות' ב 2007 , היא אימון לא מונחה מקדים של הרשת לפני 
הקס־נק:> £301 . טכניקה זו נמצאה יעילה מאוד בהפחתת התאמת יתר ברשתות עמוקות בהשוואה לטכניקות אחרות שהיו 
קיימות עד לשנת 2007 . 

108 ־ ¥01 ! 61 מ 31 ־ 86116111 ־ 31 ק 8 ק 06 ס פותחה ע״י 10 §מ 60 ושות' ב 2011 . ברשת זו נעשה שימוש ב 1 ) 110011110 
( 8.0111 ) 11011 ־ 110031 כפונקציית אקטיבציה, במקום 1 > 81£0101 או 131111 . שימוש בפונקציית אקטיבציה זו נמצא יעיל 
יותר מ §ס 1 ס 31 ־נ 0-1 ־נק 1 ) 086 ־נ 6 ק 11080 בהפחתת התאמת יתר, וייתר את הצורך ב 31010£ ־נ 0-1 ־נק 1 ) ¥180 ־ 01 ק 1080 . 

!ססקס־נס טכניקה שפותחה ע״י הינטון ושות' ב 2012 . בטכניקה זו, לכל דוגמת קלט במהלך שלב האימון, מוחקים 
באופן זמני כל נוירון בהסתברות מסוימת, מבצעים קס־ 1 ק 8301 , ומעדכנים את המשקולות. לאחר מכן, מחזירים את כל 
הנוירונים, וחוזרים על ההליך מחדש. טכניקה זו נמצאה מאוד יעילה בהפחתת התאמת יתר ומשולבת ברשתות עמוקות 
במערכות שיא הטכנולוגיה כדוגמת רכב ללא נהג. 

במהלך ניתוח השיטות, והסקירה הנרחבת של הספרות, לשם מציאת הסברים תיאורטיים ליעילות של שלושת שיטות 
אלו, נמצא ש סס 3011¥311 00118 100 ) 1 ) 86111 ־נ 3 ק 8 משותף לשלושת השיטות אלו. מרכיב זה מעניק יעילות לשלושת 
שיטות אלו בהפחתת התאמת יתר. למרות העובדה ש 31010£ ־נ 0-1 ־נק 1 ) 61080 ק 17080 ו 001 ק 0 ־ 01 אינן מכוונות כלל 
ליצירת ץ 811 ־נ 3 ק 8 . 

בנוסף, בוצעה סקירה השוואתית של הרשתות: 

2015 , 01 * 8081 81 ; 2014 , 61 * 161 § 000 ; 2014 , 61 * 1 ¥00 ; 2012 , 61 * £16x1 ״ 

ברשתות אלו שולבו הטכניקות שסוקרו בעבודה מסכמת זו. רשתות אלו הניבו ביצועים מיטביים ב 0 §־נ 0113 * 61 § 13 ס 1 
6 §ס 0113116 600£011100 ־נ 08031 80316 . נמצא, שלעומק הרשת קיימת חשיבות קריטית בשיפור הביצועים. 

על בסיס שתי המסקנות המרכזיות של עבודה מסכמת זו: 1 . סס 311 ׳ 30111 00118 160 ) 1 ) 86 111 ־נ 3 ק 8 אלמנט מרכזי 
בהפחתה מוצלחת של התאמת יתר ברשתות עמוקות. 2 . הצורך ברשת עמוקה מאוד לשיפור הביצועים במטלות 
מורכבות. הוצעה טכניקה חדשה מקורית להפחתת התאמת יתר, המיועדת לאפשר עיצוב רשתות מאוד עמוקות. 
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2 . מבוא 

רשתות נוירונים עמוקות מכילות שכבות רבות לא ליניאריות, מה שגורם להן להיות מודלים מאוד אקספרסיביים 
שמסוגלים ללמוד יחסים מאוד מורכבים בין הקלט לפלט. בעיית התאמת יתר אינהרנטית לרשתות עמוקות מרובות 
פרמטרים. הרשת מתאימה באופן מושלם לדוגמאות האימון אך ללא יכולת הכללה לדוגמאות חדשות. במהלך ה 30 
שנים האחרונות מאז פיתוח אלגוריתם הלמידה ברשתות רב שכבתיות ( 3£31100 ק 1-0 ק:> 6361 ) הומצאו טכניקות רבות 
להפחתת בעיית התאמת יתר. כדוגמת: 

§ח 1 § 3 ־ 01 \ 3 101 ) 81 1410 001100 ( 10 140180 ,§ 10 קק 0 ! 8 ץ 1 ־ש£ , 10£ ־ 81131 1 ו 1 § 01 ׳ \\ ,ץ 1110663 § ¥61 \. 
אך טכניקות אלו לא היו יעילות מספיק להתמודדות עם התאמת יתר ברשתות עמוקות מרובות פרמטרים. תחום רשתות 
נוירונים עמוקות, היה בסטגנציה במשך עשרות שנים. עד שבשנת 2007 הינטון ושות' הציגו את הטכניקה, 
31010£ ־ 6-11 ־ 1 ק 1 ) 086 ־ 61 ק 11080 , שהפחיתה משמעותית את התאמת יתר ברשתות עמוקות והעניין המחקרי ברשתות 
עמוקות זכה לתחייה מחודשת. בשנת 2011 גילוי חדש לגבי היעילות של 31 ־ 11601 ז 60006 ז 86 ־ 31 ק 8 ק 66 ס 
8 :>[־ 01 ׳\\ 061 במניעת התאמת יתר, הזניק את תחום למידה עמוקה, וייתר את הצורך ב 31010£ ־ 6-11 ־ 1 ק 1 ) 086 ־ 61 ק 11080 . 
שנה לאחר מכן, פותחה טכניקה נוספת הקרויה 001 ק 0 ־ 1 ס, ע״י הינטון ושות', שהפך את הלמידה ברשתות עמוקות 
לשיא הטכנולוגיה בבעיות של למידת מכונה ובינה מלאכותית. עד שכיום בשנת 2017 רשת 11681461 , מניבה ביצועים 
טובים יותר מביצוע אנושי, בזיהוי תמונות. העבודה המסכמת כוללת 7 פרקים. 

פרק 3 עוסק במרכיבים החישוביים הבסיסיים של רשתות נוירונים מלאכותיות. פרק 4 עוסק בעקרונות של רשתות 
עמוקות. פרק 5 מתאר את מקור בעיית התאמת יתר, וסוקר, משווה ומנתח, את שלושת הטכניקות המרכזיות לפתרון 
בעיית התאמת יתר, שהוזכרו לעיל: 

0111 ק 0 ־ 1 ם & , 8 > 1 ־ 1 ס׳\\ 01 ו 1 31 ־ 110111 ־ 06111161 ־ 1 86 ־ 31 ק 8 קסס(] .§ח 31111 ־ 0-11 ־ 1 ק 1 ) ¥186 ־ 61 קט 8 מ 11 
כחלק ממסקנות ניתוח הספרות, ותוך דיון תיאורטי, הועלתה ההיפותזה, שהעיקרון הנוירו-חישובי במוח הביולוגי: 
10£ !) 00 86 ־ 31 ק 8 , ובהקבלה ברשתות נוירונים: סס 3011¥311 00118 160 ) 1 ) 86111 ־נ 3 ק 8 , הוא המרכיב המאחד את 
שלושת השיטות, והמעניק יעילות דווקא לשלושת השיטות האלו, בפתרון בעיית התאמת יתר. בפרק 6 של העבודה 
מוצגים ביצועים של 4 רשתות קנוניות בזיהוי תמונות 

( 2015 , 11681461 & ; 2014 , 161461 § 000 ; 2014 , ¥001461 ; 2012 , 16x1461 ^) המשלבות את השיטות לפתרון 
בעיית התאמת יתר שנדונו בעבודה. בפרק 7 של העבודה מוצעת טכניקה מקורית חדשה לפתרון בעיית התאמת יתר 
ברשתות עמוקות, המיועדת לאפשר עיצוב רשתות מאוד עמוקות. הטכניקה נשענת על מסקנות שהוסקו בעבודה זו, ועל 
עקרונות נוירו חישוביים נוספים. 
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3 . רשתות נוירונים מלאכותיות 


3.1 הנוירון המלאכותי הראשון 

[ 6,7,10,11,32 ] 

הנוירון המלאכותי הוצע לראשונה ע״י 1118 ? & 4001110011 \[ בשנת 1943 . המוטיבציה של החוקרים הייתה לבנות 
מודל חישובי מתמטי של נוירון ביולוגי. המודל של 1118 ? 011 ס 40€1111 \[ פותח בהשראת ממצאי המחקרים בתחום 
מדעי המוח עד לאותה תקופה. 



איור 1 . מבנה נוירון ביולוגי 

111 ־ 501 :^ 1 ) 130 1111111311 - 80161106 05 6 § 00116 ץ 1 ־ 61 ( £5 ) 
( 5111101:1011 & 


נוירון ביולוגי מורכב מ 4 חלקים מרכזיים: דנדדיעיע, גוף ההא, איקסל;, !■מחבר איקסל; היוצר אזור מפגש עם נוירון 
נוסף. אזור מפגש זה קרוי סינפסח. 

באופן כללי ביותר, ניתן לומר שהנוירון מקבל יקלע מנוירונים רבים בחלק המכונה דנדריטיס. בגוף ההא מתבצע 
חישוב, המסכם את סך כל הקלט שהתקבל בדנדריטים. בעקבות החישוב אם סך כל הקלט גדול מערך סף, מתרחש 
פוטנציאל פעולה. באקסון מתבצעת הולכה של האות(פוטנציאל הפעולה). מהאקסון האות עובר לנוירון אחר דרך אזור 
המפגש הקרוי סיגפסה. ראה איור 1 . 

על מנת להבין את הרציונל של 1118 ? 11 נ> 110 טכ):> 4 \ 1 בפרט, ושל רשתות נוירונים מלאכותיות בכלל, הנדונות 

בהרחבה בעבודה מסכמת זו. יש להבין מעט את הרקע הביוכימי של העברת האותות בין נוירונים, ואת המכניזם 
הביוכימי של למידה. מבנה מרכזי ביותר בלמידה ובהעברת אותות בין נוירונים הוא הסינפסה. מבנה זה מרכזי מאוד 
ברשתות נוירונים מלאכותיות. 
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3.1.1 סינפסה 

[ 6,7,10,11,32 ] 

כפי שצוין, אזור המפגש בין נוירונים מכונה סינפסה. אזור זה מוצג באיור 2 . 



איור 2 . סינפסה 
(נלקח מוויקיפדיה) 


נתבונן באיור 2 . הסינפסה היא בין קצה האקסון של נוירון^ 7 והדנדריטים של נוירון £. ^ 7 הוא חלק מנוירון קדם- 
סינפטי המשדר לנוירון 6 , שהוא נוירון בתר-סינפטי. 

תיאור קצר של מעבר מידע מנוירון 71 לנגידל/ 8 . 

האקסון של נוירון.^ 7 מוליך אות חשמלי לאורך האקסון שלו. אות חשמלי זה מגיע לקצה האקסון של נוירון.^ 7 . בקצה 
האקסון של נוירון כתוצאה מההגעה של האות החשמלי משתחררות אל המרווח הסינפטי מולקולות המכונות 
נוירוטרנסמיטרים. נוירוטרנסמיטרים אלו נקשרים לקולטנים בדנדריטים של נוירון £. כתוצאה מכך, נפתחות תעלות 
יונים בדנדריטים של נוירון £ ומתח חשמלי מצטבר בגוף התא של נוירון £. 

בגוף התא של נוירון £ מתבצע החישוב הבא: אם המתה המצטבר גדול מערך סף, אזי יתרחש פוטנציאל פעולה 
שיעבור לאורך האקסון של נוירון £. אחרת, לא יועבר שום אות חשמלי לאורך נוירון £. לעקרון זה שאם הצטבר 
מתח חשמלי מעל לסף מסוים יתרחש פוטנציאל פעולה ויעבור אות, ואחרת, לא יתרחש פוטנציאל פעולה ולא יעבור 
אות, קוראים: <\\ 11011610 ״ 01 // 71 . 

נוירון £ מקבל קלט מנוירונים רבים בסינפסות רבות. חלק מהסינפסות הן סינפסות מעוררו/ כלומר 
הנוירוטרנסמיטרים המשוחררים למרווח הסינפטי גורמים להעלאת המתח בגוף התא של נוירון £. חלק מהסינפסות הן 
סינבסות מעכבות, כלומר הנוירוטרנסמיטרים המשוחררים למרווח הסינפטי גורמים להורדת המתח בגוף התא של 
נוירון £. בגוף התא של נוירון £, מתבצע חישוב המסכם את המתח המצטבר - ואם ורק אם מתח זה גדול מערך סף, 
יתרחש פוטנציאל פעולה ויעבור אות חשמלי - אחרת, לא יועבר אות חשמלי. בנוסף, לכל סינפסה יש חוזק אחר. זהו 




מושג מרכזי בהבנה של רשתות נוירונים מלאכותיות. יש סינפסות חזקות יותר, שמשפיעות יותר על המתח בגוף התא 
של נוירון 8 , ויש סינפסות חלשות יותר שמשפיעות פחות על המתח בגוף התא של נוירון 8 . 

על סמך עקרונות אלו, 188 ? 410011110611 [ 7,10,11,32 ] הציעו בשנת 1943 מודל מתמטי לפעילות הנוירון 

המוצג באיור 3 . 







איור 3 . 08 ־ 6111 ^ 8 ; 1 ; 11 ?-ן 01 ס 10€1111 ^[ 

(נלקח מהבלוג מהי בינה מלאכותית? 111.111 .^: £11:1 ) 

הנוירון המלאכותי מחשב את הסכום: 1X1 ^ £ 

כאשר הקלט x1 בינארי( 0 או 1 ) 
משקולת, מספר ממשי. 

אם הסכום £ המחושב בנוירון גדול מערך סף, הנוירון יחזיר פלט 1 , אחרת הנוירון יחזיר פלט 0 (פונקציית 
מדרגה). 

ההקבלה של מודל מתמטי זה לנוירוך המוחי: 

x1 מסמן גלידי; ק 0-07 ינ 3 טי. נוירון יכול להיות במצב 0 או 1 בהתאמה ל 110116 ־ 41101 . 1 ־ נוירון שולח אות יש 
פוטנציאל פעולה. 0 - נוירון שקט, אין אות חשמלי, אין פוטנציאל פעולה. 

!טומסמן את חוזק וסוג הסינססה. ערך גדול יותר מסמן סינפסה חזקה יותר עם השפעה גדולה יותר על הנוירון הבתר- 
סינפטי וההפך. בנוסף, הסימן + או - של;׳\\, מסמן את סוג הסינפסה מעוררת או מעכבת בהתאמה. 

**^ 1 £ . הסכום שמחושב בגוף התא של הנוירון הבתר-סינפטי. אם סכום זה גדול מערך סף, יתרחש פוטנציאל 
פעולה, כלומר פלט= 1 אחרת פלט= 0 . בהתאמה ל ¥\ 13 110116 עס 411 , . 

מבחינת הכוח החישובי של המודל של 1118 ? 410011110011 , לא קשה לראות שניתן לממש את כל הפונקציות 

הבוליאניות, באמצעות יחידות נוירונים אלו ע״י מימוש הפונקציות 08 4.140 14071 . 
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יש להבחין שמודל זה הוא תיאור מתמטי סטטי של פעילות נוירון בתר-סינפטי כתוצאה מפעילות נוירונים קדם- 
סינפטיים. כלומר המבנה וערכי המשקולות נקבעים פעם אחת ואינם משתנים. בסעיף הבא נראה כיצד 14 שנה לאחר 
הצגת המודל לפעילות נוירון של 1118 ? 311110011 ) 0 ^, פותח על בסיס המודל שלהם, אלגוריתם הלמידה הראשון 

ברשת נוירונים מלאכותית(פרספטרון) הכולל שינוי דינמי של ערכי המשקולות. 

3.2 פרספטרון 

[ 11,32 ] 

בשנת 1957 הומצא ע״י פרנק רוזנבלט אלגוריתם הלמידה הראשון ברשת נוירונים מלאכותית. אלגוריתם זה קרוי 
פרספטרון. בדומה למודל של 1118 ? & 311110011 ) 10 ^ 1 גם אלגוריתם למידה זה פותח בהשראת רשתות עצביות 
ביולוגיות. המחשבה המרכזית השולטת בחקר המוח היא שהביטוי הביוכימי של למידה מאופיין במוח באמצעות שינוי 
ביעילות הסינפטית, כלומר בחוזק של הסינפסות(ץ 811011 ט 1 ק 110 קטמץ 8 ). כפי שראינו במודל של & 311110011 ) 10 \[ 
1118 ? החוזק הסינפטי מיוצג באמצעות ערכי המשקולות מטרת אלגוריתם הלמידה של פרספטרון, להתאים את 
ערכי המשקולות, כך שלאחר ביצוע אלגוריתם הלמידה, הרשת תלמד לבצע קלסיפיקציה בינארית נכונה של הקלט. 



(נלקח מ X^X.001X1 : מס־ 11 ק 06 ־ 61 ק 3 05 1 ז 31 ־ 1 § 3 !ס) 


כפי שמתואר באיור 4 . לאחר סיום שלב הלמידה, אם £ גדול מ 0 הפלט הוא 1 (הקלט מסווג לקבוצה 1 ) אחרת 
הפלט הוא 0 או 1 - (הקלט מסווג לקבוצה 0 ). אם כן, הפרספטרון זהה לחלוטין, לאחר שלב אלגוריתם הלמידה, למודל 
של 1118 ? & 311110011 ) 10 ^ 1 . נשאר להבין את אלגוריתם הלמידה של פרספטרון. 

3.2.1 אלגוריתם הלמידה 

[ 6,11,31,32 ] 

ראשית יש לציין שסוג זה של למידה נקרא למידה מונחית( 1111£ תט 110 ) 480 ר 01 ק $11 ) מכיוון שמספקים לפרספטרון את 
הפלט הנכון עבור כל דוגמא, ועדכון המשקולות מתבצע בהתאם להבדל בין תשובת הפרספטרון לתשובה הנכונה. 
כלומר בשלב הלמידה, הפלט הנכון שהרשת הייתה אמורה להפיק מנחה אותנו כיצד לשנות את ערכי המשקולות. 
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אלגוריתם הלמידה או בלל הלמידה (שלב חאימון): 

אם הפלט נכון- לא משנים את המשקולות 
אם הפלט בטעות 0 - הוסף את וקטור הקלט לווקטור המשקולות 
אם הפלט בטעות 1 - החסר מווקטור המשקולות את וקטור הקלט 

אלגוריתם זה מבטיח לנו שלאחר מספר סופי של איטרציות על כל דוגמאות האימון, נמצא וקטור של משקולות שיבצע 
סיווג נכון לכל דוגמאות האימון אם אכן יש וקטור משקולות כזה. 

כאן המקום להגדיר שלושה מונחים שיצוינו בעקביות בספר זה. 

הנתונים לרשת נוירונים מלאכותית מתחלקים לשלוש: 

דוגמאות אימון. דוגמאות אימות. דוגמאות מבחן. 

דוגמאות אימון( 801 3111111£ ־ 11 ) - דוגמאות שמשמשות לאימון הרשת ולעדכון המשקולות במהלך ביצוע אלגוריתם 
הלמידה. 

דוגמאות אימות( 1311011861 ) 111 >¥) -דוגמאות שמשמשות להערכת טיב המודל(לאחר ביצוע אלגוריתם הלמידה) לשם 
בחינת הצורך בשינוי המודל. תוצאות שמתקבלות על דוגמאות האימות, עוזרות להחלטה לגבי הצורך בשינוי 
בפרמטרים של למידה או של ארכיטקטורה(מונחים אלו יובהרו בהמשך). 

דוגמאות מבחן( 861 1681 ) - אלו דוגמאות חדשות לחלוטין שהרשת לא ראתה בשום שלב. הביצוע על דוגמאות המבחן 
למעשה מקביל לטיב הרשת בפתרון הבעיה, וליכולת ההכללה של הרשת לפתור את הבעיה בעולם האמיתי עבור כלל 
הדוגמאות. 

3.3 מפרספטרון־ לרשת נוירונים כללית חד שכבתית 

פונקציית האקטיבציה מגדירה את הפלט של הנוירון בהינתן הקלט ויש לה חלק מרכזי ביעילות הלמידה, כפי שנדון 
בהמשך. 

כפי שראינו ב 011 ־ 11 ק 6 נת 6 ? 11131 §ת 0 & 11181810111-011 ? & 1 [ 0 ס 001111 ]/\ 1 , פונקציית האקטיבציה היא פונקציית 
מדרגה(איור 3 ). אולם, פונקציות שונות ומגוונות יכולות להיות פונקציות אקטיבציה מתאימות. נזכיר כאן שלוש 
פונקציות אקטיבציה שכיחות: 111111011011 ) 1311£6111,81£11101 0110 כ 1 ־ 61 כ[ץ 13 ו 111111 ׳ 11111631 ) £6011116 

3.3.1 אלגוריתם למידה - 6806111 ( 1161111 ) 3 ־ 01 

[ 6 , 11 ] 

אלגוריתם הלמידה הכללי לרשת נוירונים חד שכבתית הוא למעשה יישום של 16806111 ) 116111 ) 3 ־ 01 על פונקציית 
המחיר שמעריכה עד כמה קרובה הרשת למטרה שאליה מכוון האימון. 



3.3.2 פונקציית מחיר 

[ 6 , 31 , 32 ] 
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כפי שראינו בפרספטרון המקורי אנו למעשה שואפים למצוא וקטור של משקולות שיבצע קלסיפיקציה נכונה לכל 
דוגמאות האימון. כלומר שההפרש בין הפלט של הרשת לפלט הנכון לכל דוגמאות האימון ישאף ל 0 . נגדיר פונקציית 
מחיר(איור 5 ) שהיא למעשה מדד לשגיאה הכוללת של הרשת. מדד זה למעשה מבוסס על סכום ההפרשים בין הפלט 
של הרשת לפלט הנכון על כל דוגמאות האימון. מדד זה מאפשר לנו להעריך עד כמה קרובה הרשת למטרה שאליה 
מכוון האימון. 


2 ל '׳<-" 0 2 4 ־£! 


איור 5 . פונקציית מחיר 
ז - פלט נכון ץ - פלט של הרשת 

( 111110/1 ] , 107011X0 /ס \ €7,111 ע 0711 


המטרה של אלגוריתם הלמידה הכללי היא למצוא בסופו של הליך וקטור של משקולות כך שמדד השגיאה שלנו - 
פונקציית המחיר - תהיה מינימלית. (נזכור שבפרספטרון המקורי המטרה הייתה למצוא וקטור משקולות כך שההפרש 
בין הפלט של הרשת לפלט הנכון לכל דוגמאות האימון יהיה 0 ) 

ניתן לבצע זאת באמצעות 10806111 > 116111 > 01-3 בו אנו משנים את ערכי המשקולות כדי לרדת בהדרגה בערך פונקציית 
העלות. על מנת לרדת בערך פונקציית העלות אנו למעשה משתמשים בנגזרת של פונקציית העלות שמספקת לנו את 
הכיוון(שיפוע) שיש לשנות את המשקולות כדי לרדת בערך פונקציית העלות. 

אם נגזור את פונקציית העלות שהגדרנו, נקבל שיש לשנות כל משקולת על פי הנוסחה( 1 ). אציין שכלל זה ברשתות 
נוירונים חד שכבתיות מכונה כלל דלתא( 111116 > 611 ( 1 ). 


~ !*)■ס = 31 ^ 


נוסחה 116010650601.1 ^ 01 

1 - פלט נכון. ץ - פלט של הרשת. !צ - ערך נוירון הקלט. 01 - קבוע 
הלמידה: מספר בתחום ( 0,1 ) הקובע את קצב הלמידה, קצב שינוי 
המשקולות בכל עדכון.(; 11 )§ פונקציית האקטיבציה כאשר 

;*־■,<!= 1 י> 
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אם כן למעשה העיקרון של אלגוריתם הלמידה הכללי לרשת נוירונים חד שכבתית כללית: 

1 . חשב את הפלט של הרשת על דוגמת האימון 

2 . חשב את ההפרש בין הפלט שהתקבל לפלט הנכון שהיה צריך להתקבל 

3 . שנה כל משקולת על פי 10800111 ) 11001 ) 013 או כלל הדלתא 

אציין שיש מספר מודיפיקציות לאלגוריתם הלמידה הנוגעות לגבי התזמון של שינוי ערכי המשקולות. ב 810011118110 
1080001 ) 11001 ) 13 § משנים את המשקולות 01111110 כלומר אחרי כל דוגמא. לעומת 10800111 ) 110111 ) 3 ־ 1 § £31011 שבו 
משנים את המשקולות לאחר מעבר על כל דוגמאות האימון. 1080001 ) 11001 ) 13 § 41011131011 \ 1 הוא שילוב של שתי 
הגישות, ובו משנים את המשקולות לאחר מעבר על אחוז מסוים מסך הדוגמאות. לכל מודיפיקציה יש יתרונות 
וחסרונות בהקשר של מהירות ההתכנסות לווקטור משקולות אופטימלי, ותלויה בין היתר בגודל בסיס הנתונים. איור 6 
ממחיש את הליך ה 1080001 ) 11001 ) 013 באופן גרפי. ד׳סישעם באילד: 1 היא פונקציית המחיר ו 01 , 00 הן 
המשקולות של הרשת. 



איור 6 . המחשה גרפית של 6506111 ( 0130101111 


0 \י)) 1 )!!\/ \\!!) 00 '\! 1 ו 1 _} 1 ) 11/01 !)!$ \( 1 §ח 11 דז 0 ?, 1 י) ח!! $1001 ,) 

< 8 * 


האלגוריתם מעדכן בכל שלב את המשקולות 01 , 00 בהתאם לשיפוע כך שערך פונקציית המחיר( 1 ) פוחתת עד להגעה 
למינימום המבוקש. 

אם נחזור ונתבונן בכלל הלמידה של הפרספטרון המקורי, נראה שכלל הלמידה תואם לחלוטין ל 1080001 ) 11001 ) 013 
במידה ונציב 1 במקום ([ 11 ) י §. (כמובן שלא ניתן להשתמש ב 1080001 ) 11001 ) 013 כמו שהוא, בפרספטרון המקורי, 
כיוון שפונקציית המדרגות, פונקציית האקטיבציה, בפרספטרון המקורי איננה גזירה. אך ניתן לראות שכלל הלמידה של 
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הפרספטרון תואם ל 16806111 ) 116111 ) 2 ־ 01 במידה ומבצעים מודיפיקציה קטנה) לסיכום הראנו את אלגוריתם הלמידה 
הכללי( 16866111 ) 116111 ) 2 ־ 01 ) לכל רשת נוירונים חד שכבתית עם פונקציית אקטיבציה מתאימה(גזירה באופן רציף). 
אלגוריתם הלמידה הכללי הצריך אותנו להגדיר פונקציית מחיר. 

3.4 מגבלות של רשת נוירונים חד שכבתית והפתרון 

[ 6,31,32,34 ] 

בשנת 1957 כאשר פרנק רוזנבלט הציג את הפרספטרון הוא טען שמחשב מבוסם על הפרספטרון יוכל ללכת, לדבר, 
לראות, לשכפל את עצמו ולהיות בעל מודעות. אולם לאחר כ 10 שנים מהמצאת הפרספטרון, הוכח חד משמעית 
שהפרספטרון וכל רשת חד שכבתית אחרת מוגבלת מאוד מבחינת יכולת הקלסיפיקציה שלה. רשת חד שכבתית 
מסוגלת לבצע אך ורק הפרדה ליניארית. רשת חד שכבתית יכולה ללמוד לבצע קלסיפיקציה ל 2 קבוצות רק כאשר 
ניתן להפריד ליניארית(בקו ישר) את 2 הקבוצות. ממצא זה למעשה גרם להזנחת תחום של רשתות נוירונים למשך 
עשרות שנים. עד שבשנת 1986 שלושה חוקרים בשם 

[ 34 ] 111121118 . 1 1 ) 110221 1 ) 22 111111011 .£ ץ 6 ־ 1 ' 1 ' 0601 , 1 ־ 112111611121 .£ 1 ) 020 

הראו שאלגוריתם למידה ברשת רב שכבתית בשם 111121 ־ 01 § 21 21102 § 2 ק 0 ־ 1 ק;> £261 מאפשר למידה ברשת רב 
שכבתית וכך ניתן להתגבר על המגבלה החישובית של פרספטרון ורשת נוירונים חד שכבתית. 

אך לפני שנתחיל לדון ברשתות עמוקות, כדאי לדעת שישנו טריק מתמטי בשם 2618 ־ £61 המאפשר לרשתות חד 
שכבתיות לבצע הפרדה לא ליניארית. חשוב להבין ש 2618 ־ £61 לא מוסיף כוח חישובי או אקספרסיביות למודל, 
ובמקרים שבהם היחס בין הקלט לפלט מורכב מאוד כמו בבעיות מורכבות של אינטליגנציה מלאכותית (זיהוי אודיו, 
זיהוי אובייקטים וכוי) 2618 ־ £61 לא יעניק לרשת חד שכבתית כוח חישובי לפתור בעיות אלו. זהו רק טריק מתמטי 
שמאפשר לרשת חד שכבתית לבצע הפרדה לא ליניארית, ויעיל במקרים מאוד מסוימים. 

3.4.1 2618 ־ £61 

[ 6,31 ] 

2618 ־ £61 הוא טריק מתמטי המאפשר לבצע הפרדה לא לינארית במקרים מסוימים, במודל שמבחינה אינהרנטית מוגבל 
אך ורק להפרדה ליניארית. כאשר יש יחס מאוד מורכב בין הקלט לפלט, 2618 ־ £61 לא יעזור. מכיוון שרשת חד 
שכבתית מספקת מודל לא מספיק אקספרסיבי. 

מה שלמעשה עושים זה מניפולציה מתמטית על מאפייני הקלט כך שלאחר ביצוע המניפולציה עבור מאפייני הקלט 
החדשים הבעיה תהיה ניתנת להפרדה לינארית. לדוגמא אם ההפרדה היא מעגלית ויש שני מאפייני קלט, אז במקום 
מאפייני הקלט x1, x2 ניתן לעשות טרנספורמציה כך שמאפייני הקלט החדשים יהיו: x2 2 י x1, x2, x1x2, x1 2 
בהתאם לנוסחת המעגל, כעת ההפרדה לאחר הטרנספורמציה תהיה ליניארית. 
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וכעת ביתר פירוט: 

ברשת חד שכבתית - עבור 2 מאפיינים ( 2 ^ 1 ^ החישוב שאנו מבצעים: 
11 1 1101 ) 6 ־ 1 ? 

\¥0+ ^1X1+^2X2 > 0 

אולם ניתן לבצע מניפולציה מתמטית על הנוירונים של הקלט, כך שנוכל לבצע הפרדות לא ליניאריות. לדוגמא עבור 
הפרדה שהיא בצורה מעגלית/אליפטית כמו שמוצג באיור 7 , נוכל לשנות את הנוירונים של הקלט( 2 ^ 1 ^ בצורה 
הבאה: 


11 1 1101 ) 6 ־ 1 ? 

\¥()+ ^1X1+ ^2X2 +\^^2+\^1 2 +\^2 2 >0 


0 0 0 0 0 00 


0 0 א* 


א " 
א * 


0 א X x * ס 

00 ס-סס"^ א סס 5 
ע^ס ס 0 ס 0 0 0 


0 ס 0 

^ א ס 


איור 7 . הפרדה לא ליניארית 

,ץ 7 ן 5 ו 67 ׳תמ/£ ץ;/ § 1 ו 11 דו £0 ^ 1 ) 

ו?." 


אם אנחנו יודעים את הצורה של ההפרדה המבוקשת ניתן למצוא טרנספורמציה מתמטית מתאימה לנוירונים של הקלט 
על מנת שהרשת תוכל לבצע את הקלסיפיקציה הלא ליניארית, כפי שראינו לעיל. ישנה דרך כללית יותר לבחירת 
מאפייני קלט באמצעות 11618 ־ £61 . 

הרעיון־ המרכזי הוא: בחר נקודות(גרעינים). חשב 11111611011 ץ 1111 > 111 מ $1 בין מאפייני הקלט המקוריים לגרעינים 
שנבחרו. התשובה המתקבלת מה 11111611011 ץ 11-11 > $111111 יהיו מאפייני הקלט החדשים של הרשת החד שכבתית. 
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יש מספר 111110110118 ץ 11 ־ 8111111111 אפשריות ( , 1000101 0 ־ 11 ; 11 ! 0111-80 , 1101 ־ 1801 1112 ־ 811 , 11000101 ג 11 מ 0 ן 1 ץ 01 ? 
1000101 חס 1 ; 8601 ז 16 ח 1111 ט־ 1 § 171810 ). השכיחה ביותר היא 1000101 11 ט 11881 ט 0 , המוצגת באיור 8 . 


.^ x ח 6 /\ 01 

(^ 1 ,: 3 )ץ 10 ־ 118,1 בת 81 = */ 
י!! ^ 1 — נ 3 | 1 / 


2(7 2 


6x5) 


איור 8 . 161 ת £6 [ 030881311 

($4(16111116 1,6(11711118 ^ 51(111/07(1 14111X6751//, (\71(176\\7 
1*8) 


האלגוריתם (נלקח מ 1 ( 67,117 ע 57071/076111111 ׳<?/ 7,60,1711118 4616111116 \ 1 ): 

,( ( 1 מ) /ן, ( 1 זז) :ג),... ,( ( 2 > /ז י ( 2 ) ע),( ( 1 ) /ו, ( 1 ) נג) ח 6 /\ו 0 

= ^ 1 ,■ ■ ■ , לג = 0110056 

\ 6X31711316 X ח 6 /\! 6 

(^ 1 ,: 3 ) 1117 :[ 11101 : ת 81 = !/ 

(^ 1 ,ל 3 ) 7117 ^ 8111111 = 2 / 


0 < $3/3 + $2/2 + !/!$ + $0 11 1 = ע : 63101 ־׳!? 


כאשר ה 1111101:1011 ׳< 111 £ 1111 ת 81 יכולה להיות 11 ט 11881 ט 0 כמובא באיור 8 . 
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4 . רשת נוירונים רב שכבתית(רשת עמוקה) 

4.1 השראה מהמוח 

[ 4,5,10,12,29,34 ] 

הפתרון שהוצע בשנות ה 80 למגבלה החישובית של רשת נוירונים חד שכבתית הוא הוספת שכבות חבויות. מההיבט 
התיאורטי/מתמטי הוספת שכבות, מוסיפה למודל כוח חישובי רב. למעשה, רשת עם מספיק שכבות ונוירונים יכולה 
להתאים (באמצעות משקולות מתאימות) באופן מושלם לכל יחס בין הפלט לקלט(בדוגמאות האימון), מורכב ככל 
שיהיה. 

להבהרה ולהמחשה של יחס מורכב בין קלט לפלט אל מול בעיות שניתנות להפרדה ליניארית ראה איורים 9,10 . בגלל 
המגבלה הגרפית, מוצגות בעיות קלסיפיקציה עם 2 מאפייני קלט( 2 הצירים). 



( 665 ז 69 !> חו) 46 ו 11 ו 9 ח 10 



איור 9 . לא ניתן להפרדה ליניארית 



>< ~ ״ 0 00 

05 ס 0 ס 

/\ ^ 0 0 0 

0 " X ס^, 


ס ס 


x א\ 00 ״ 0 0 0 


1,60771171$ 10111116 ) 4 [ 11X76 ־ £6 14107080/7 01$0717117718/07 0110086 70 7 \\ 110 ) 
61.66111 ־ 87071/07 ~ 0 א ׳ 4 \ 716176 .£ 010881/10011071 071-1171607 א 160171171$ 14610111716 
($־ 110161107X86.07 -$־ 01 7167X^07168 - 0\>67\>16\\> 07161 81X77177107 ־ 6117 א 



איור 10 . ניתן להפרדה ליניארית 

14107080/7 £67,1X76 ־ 07 / 17117718 ־ 611$07 0110086 70 ׳׳ 7/011 ) 
( 1£0771171$ 1400111716 
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המוטיבציה וההשראה לרשת נוירונים רב שכבתית כמו ההשראה לנוירון המלאכותי ולרשת חד שכבתית גם היא נובעת 
ממבנה המוח. המחשבה היא שהעיבוד במוח מתבצע על פני מספר שכבות כאשר כל שכבה שולחת את הפלט שלה 
לשכבה הבאה לעיבוד נוסף מתקדם יותר. הדוגמא הקלאסית להליך עיבוד רב שכבתי היא הליך זיהוי פנים במערכת 
הראייה במוח. כל שכבה במוח לומדת ייצוג מורכב יותר של הפרצוף, המורכב מצירופים פשוטים יותר המתקבלים 
משכבה קודמת. איור 11 מדגים הליך זה של זיהוי פנים המתבצע למעשה ברשת נוירונים רב שכבתית מוחית. 


0 ח 3 וחיזזמ> ז 13010 



איור 11 . זיהו פנים. רשת רב שכבתית מוחית 

במוח, שכבה ראשונה ¥1 מגיבה לצורות פשוטות, קצוות, וקשתות. שכבה שנייה, ¥2 מגיבה 
לצרופים של צורות השכבה הראשונה, וכך הלאה עד שבשכבה האחרונה יש ייצוגים גבוהים 
של אובייקטים מורכבים, כדוגמת זיהוי פנים וכוי 

(')(ן* 7110 511110/1 ,!((*) 111 *^(*€ 60 1 * 1 * €0000 £ן 01 ־/ 00116 ^ 10 * 0 ( €011 ) 


בדומה לרשת נוירונים חד שכבתית גם רשת נוירונים רב שכבתית למעשה מורכבת מ 3 מרכיבים מרכזיים. 
ארכיטקטורה, פונקציית אקטיבציה ואלגוריתם הלמידה. 
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4.2 ארכיטקטורה 

[ 11,5,32,34,39 ] 

הארכיטקטורה הכללית של רשת נוירונים רב שכבתית היא שכבת קלט, שכבות חבויות ושכבת פלט. כאשר יחידות 
נוירונים משכבה קודמת מחוברת במשקולת ליחידות הנוירונים בשכבה הבאה. איור 12 מציג ארכיטקטורה כללית של 
רשת נוירונים רב שכבתית בעלת שכבה חבויה אחת. 


115 ח□ 1 גוכן 1 ג 01 


115 חג 1 ח© 10101 ר 1 



115 ח□ 1 טכןח 1 0 0 0 


איור 12 . ארכיטקטורה של רשת נוירונים רב שכבתית. 

/ 0 ?/ 6731 ^ 11711 ^נ\ £0,1711118 ! 00111716 !^ 3/07 ) 071 ^ 16 ^ €11701 ?!) 

( 11711071 ! ? 7£ // 060 , 70707110 


4.3 פונקציית אקטיבציה 

[ 32 ] 

בדומה לרשת רב שכבתית, לכל נוירון(מלבד לנוירונים בשכבת הקלט) יש פונקציית אקטיבציה המגדירה את הפלט 
של הנוירון בהינתן הקלט. ראה פרק פונקציות אקטיבציה ברשת חד שכבתית בנוגע לפרוט התכונות הרצויות של 
פונקציות אקטיבציה. הקלט לנוירון [בשכבה החבויה הראשונה דומה לרשת חד שכבתית והוא למעשה 
!*!■,/*ו £ = כאשר x1 מייצג ערך של נוירון ביחידת קלט. מסמן משקולת מתאימה מנוירון קלט לנוירון [ 
בשכבה חבויה ראשונה. הקלט לנוירון [בשכבות הבאות ממשיך באותו עקרון של סכום משוקלל ושווה ל 

1 £ = ^ כאשר , 11 הוא פלט של יחידת הנוירון בשכבה חבויה קודמת. 1 מסמן משקולת מתאימה מנוירון 1 
(משכבה קודמת) לנוירון [. 




4.4 אלגוריתם למידה 1 ו 11111 ינ 0 § 1 ^ ו £31101 ן 1 ק 0 י 1 (ן) 81101 

[ 34 ] 
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כפי שהוזכר, המרכיב המרכזי שמאפשר למעשה למידה ברשתות עם שכבות חבויות הוא אלגוריתם הלמידה 
011111111 § 111 ח 110 ^§ 11 ק 0 ־ 1 ק> 101 ^ 8 . 

ברשת חד שכבתית אנו יודעים לעדכן את המשקולות, ולהתקרב לווקטור משקולות מתאים שיפתור את הבעיה(במידה 
וניתנת להפרדה ליניארית) באופן מידי, מההפרש בין הפלט של הרשת לפלט הנכון(וביצוע 10806111 ) 116111 ) 0111 על 
פני פונקציית המחיר). הבעיה ברשת רב שכבתית היא שאנו לא יכולים לדעת איך לעדכן את המשקולות שמחברות בין 
השכבות החבויות. כיוון שלא ניתן לדעת כיצד הנוירונים בשכבות החבויות צריכים להגיב. זהו הבדל עקרוני בין רשת 
רב שכבתית לרשת חד שכבתית. ברשת חד שכבתית המורכבת משכבת קלט ושכבת פלט אנו יודעים כיצד הנוירונים 
בשכבת הפלט צריכים להגיב. לעומת זאת ברשת רב שכבתית לא ניתן לדעת כיצד הנוירונים בשכבות החבויות צריכים 
להגיב. לכן כלל הלמידה ואלגוריתם הלמידה של רשת חד שכבתית לא יכול להתאים לרשת רב שכבתית. 

בשנות ה 80 הראו ש 111111 ב 01 § 1131 ס 111 )§ 3 קס 1 ק;>[ס 011 מאפשר למידה ברשתות נוירונים רב שכבתיות. אנו לא יודעים 
כיצד הנוירונים בשכבות החבויות צריכים להגיב. אז במקום להשתמש בפעילות הרצויה של הנוירונים בשכבות 
החבויות נשתמש ב £11010611¥1111¥68 ובעברית ערכי השגיאה. ניתן לחשב את ערכי השגיאה לכל הנוירונים 
בשכבות החבויות ביעילות. ולעדכן את המשקולות בהתאמה. בכדי לחשב את ערכי השגיאה של כל נוירון בשכבה 
חבויה, אנו נעזרים בערכי השגיאה של הנוירונים מהשכבה הקודמת, כאשר סדר החישוב של ערכי השגיאה הוא 
משכבת הפלט לשכבת הקלט. בגלל ההליך של חלחול אחורה של ערכי השגיאה מהשכבות המתקדמות ברשת, 
האלגוריתם נקרא 11£1111011 ק 10 ק-> 1001 . 
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הפסקה הבאה מציגה את 1 ת 1111 ־נ 0 § 31 11 ס 3££111 קס-נק:> £301 , את אופן חישוב גורם השגיאה ועדכון המשקולות. 

1111111 ־ 01 ^ 41 ־ 311011 § 3 ק 0 ־ 1 ק^ 830 
נלקח מ ( 2017 ) . 0 , 8011 £ ;£> ,.¥ ,) 1 ז 3 ? ,.£ , 1 ברש׳*\ 008 


א 41 ; 14 ־ד 6 ־ 111 !זססס־ז ק 
8126 01X11 ■)ס 861 1 ־ 031 31010£ < 1 — 4 X 
X ם 1 76007018 107 618 ( 31 ־ 1 — 4 ע 
078 ץ 13 0 ׳\ 0041 <ן 708 זס) 6181118 ׳* 1116 ' —* עז 
, 717 ס׳* 04 ס 31 ־ 00111 4110 ח 1 078 ץ 0113 ז 6 כ 1 ת 11111 1110 ' —* 1 
|*נ, 1 311 107 ז 0 זז 6 7116 


<'>ע 


1,10 311 זס? . 0 ־ 

777 40 1 = 1 
(; 1 ז,( , 3 ג)£>־ 7 ס 70 י 7 ס//> 66 / — 4 {ס 
( 1 )ע - ( 1 ) 0 - 4 1 1 ) 


*1 

?07 


4' +1 


,(0 


;״זג + 


*1 *3 3 

1? ] ^ 0 41160 

('>ת 

ס 1 ." 3 <^ 

6180 

<'>מ 




י 0 ס = ־>ז 0 ו 1 "' 


1 ח 

5 




7 

8 
9 

1(1 

11 

12 

13 

14 

15 

16 


4.4.1 מינימום לוקלי או נקודות אוכף 

[ 31,32 ] 

אחת הבעיות ברשתות רב שכבתיות שניתן לפתור בקלות יחסית היא קבלת ערכי משקולות סופיים שאינם מביאים את 
פונקציית המחיר למינימום גלובלי כנדרש. ייתכן ובמהלך ה 10800111 ) 110111 ) 0111 נגיע למינימום לוקלי ונשאר שם, כל 
תזוזה לוקלית, שינוי במשקולות, תגרום לעלייה בערך פונקציית המחיר, מכיוון שאנו בתוך מינימום לוקלי, ולכן 
האלגוריתם יחליט לא לשנות את המשקולות. איור 13 מדגים את בעיית המינימום הלוקלי. 
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איור 13 . מינימום לוקלי 


ישנם מספר פתרונות טובים לבעיה. אהד מהפתרונות זה התאמת קבוע הלמידה במהלך ה 10800111 ) 110111 ) 0111 . קבוע 
למידה גבוה יכול לעזור בהימנעות ממינימום לוקלי כיוון שהשינוי במשקולות בכל צעד יהיה גדול מספיק בכדי לדלג 
מעל מינימום לוקלי. אך הבעיה בבחירת קבוע למידה גבוה הוא שהמשקולות יזוזו אחורה וקדימה לאורך עמק 
( 11110110 ) המינימום הגלובלי ולא יתכנסו למינימום הגלובלי עצמו(איור 14 ) 



1 

£ 


\/\/ 


איור 14 . קבוע למידה גבוה אין התכנסות למינימום 

1% ז 11 ד £01 ^ 1 £ח 0111 ס 4 \ 1 611 ^ €11 ^!) 

( 111111011 ץ 6 ' 060%7 , 10 ח 0 ~ 701 / 0 


הפתרון הוא שינוי ערך קבוע הלמידה במהלך ה 11011140800111 ) 0111 כאשר בתחילה יש לבחור בקבוע למידה גדול כך 
שנימנע מהיתקעות ממינימום לוקלי ורק בשלבים מאוחרים יותר( הגענו לערכי משקולות כך שפונקציית העלות בעמק 
המינימום הגלובלי) נקטין את קבוע הלמידה על מנת לאפשר התכנסות למינימום הגלובלי. 

פתרון שבי שמאוד נפוץ הוא שימוש בשיטת רמומנטום. למעשה המומנטום כמשמעותו הפיזיקלית היא, שיטה לבניית 
מהירות של שינוי המשקולות בכיוון שעקבי עם הגרדיאנט המיטבי. בשיטת המומנטום מעדכנים את המשקולות תוך 
לקיחה בחשבון לא רק של הגרדיאנט הנוכחי אלא גם של הגרדיאנטים הקודמים. באמצעות שיטה זו נמנעים ממינימום 
לוקלי באמצעות שינוי בצעדים גדולים יותר (מהיר יותר) של המשקולות בכיוון הגרדיאנט המבוקש וכך נמנעים 
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מינימום לוקלי. מומנטום נמוך מאט את ההתכנסות, ולא ישפיע על התכנסות למינימום לוקלי, אולם מומנטום גבוה מדי 
עלול לגרום לפספוס(קפיצה מעל) המינימום. לכן צריך גם כאן להוריד את ערך קבוע המומנטום בשלבים מתקדמים 
של הלמידה. יש להתאים את קבוע הלמידה ואת קבוע המומנטום לאורך הלמידה ולהבין שקבוע למידה וקבוע מומנטום 
גבוה יגרמו לבעיה בהתכנסות למינימום הגלובלי כאשר מתקרבים אליו. 

ישנן עוד מספר טכניקות לפתרון בעיה זו של מינימום לוקלי. זו בעיה מינורית שניתן להתגבר עליה בקלות. קל למצוא 
מטריצת משקולות ברשת רב שכבתית כך שנקבל את המינימום הגלובלי לפונקציית המחיר. כלומר זו בעיה לא 
מסובכת להתאים את המשקולות כך שיתאימו באופן מושלם לדוגמאות האימון(הגעה למינימום גלובלי). 

כאן המקום לציין הערה חשובה, בספרות משתמשים בביטוי מינימום לוקלי, כיוון שהאינטואיציה שלנו היא פונקציה 
עם 2 או 3 פרמטרים. אך למעשה מכיוון שמדובר כאן בפונקציות מרובות פרמטרים הסיכוי למינימום לוקלי כלומר 
שבכל הממדים הפונקציה תהיה קמורה נמוך מאוד. הנקודות הבעייתיות האלו ברשתות עמוקות הן למעשה נקודות 
אוכף ולא מינימום לוקלי. 

ישנה בעיה אחרת לחלוטין ששמה התאמתיתר. הגעה למינימום גלובלי והתאמה מושלמת לדוגמאות האימון עדיין לא 
אומר שהמודל שנבנה יהיה בעל ערך חיזוי עבור דוגמאות חדשות(דוגמאות מבחן). התאמת יתר הינה בעיה אינהרנטית 
לרשתות עמוקות ומסובכת מאוד לפתרון ותוצג בחלק הבא. 
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5 . התאמת יתר ברשתות עמוקות 


[ 3,12,13,18,31,32 ] 

תיאורטית הוספת שכבות תמיד אמורה להוסיף כוח חישובי ולשפר את דיוק המודל. בניגוד לתיאוריה, נמצא שרשתות 
נוירונים רב שכבתיות לא מניבות תוצאות פרקטיות בזיהוי דפוסים (ן 1 ס 111 ן 1 §סנ> 0 ־ 1 מ־נ^?). המכשול שמנע מרשתות 
רב שכבתיות להניב תוצאות פרקטיות, נעוץ בבעיה אינהרנטית לרשתות רב שכבתיות הקרויה התאמת יתר או 
§ן 1111 ב 1 ־ 1 ס 0 . הבעיה היא שכאשר יש לנו יחס מורכב בין פלט לקלט אנו חייבים להוסיף שכבות חבויות כדי שרשת 
הנוירונים תהיה אקספרסיבית מספיק כדי ללמוד את היחס המורכב בין הקלט לפלט. אך הוספת שכבות חבויות גורמת 
לרשת להיות כל כך אקספרסיבית כך שהיא מסוגלת ללמוד במדויק את היחס בין כל קלט לפלט בדוגמאות האימון ללא 
יכולת הכללה. 

במילים אחרות הרשת מתאימה את עצמה יותר מדי( £1 -־ 61 ^ 0 ) לדוגמאות האימון ללא יכולת הכללה לדוגמאות 
אחרות. ניתן לתאר במילים את בעיית התאמת יתר בכמה דרכים. דרך אחת היא שרשת עם שכבות חבויות רבות 
למעשה יכולה לשנן( 12€ -נ 10 ו 461 \[) את היחס בין הקלט לפלט לכל דוגמא בדוגמאות האימון, ללא יכולת הכללה 
לדוגמאות חדשות. כלומר הרשת יכולה לפתור את בעיית הסיווג המוצגת בדוגמאות האימון בקלות באמצעות שעי; 
היחס בין הקלט לפלט לכל דוגמה, ולא באמצעות לפי 7 ד, של ד,י 77 ס הנכון ד,כללי שיהיה נכון גם לדוגמאות חדשות שלא 
מוצגות בשלב האימון. דרך אחרת לנסח במילים את בעיית התאמת היתר היא שהרשת לומדת את היחס הנכון והמורכב 
שקיים רק בדוגמאות האימון כיוון שהיא לומדת גם את הרעש שנכון ספציפית רק בדוגמאות האימון ולא בדוגמאות 
חדשות. 

איור 15 ממחיש את בעיית התאמת יתר ברשתות עמוקות. על איזה מודל, נסמוך שיתאר טוב יותר את היחס בין הקלט 
לפלט בעולם האמיתי?(דוגמאות חדשות). המודל המסובך מתאר בצורה מושלמת את היחס בדוגמאות האימון, אך מה 
עם יכולת ההכללה שלו? המודל הפשוט לא מתאים במדויק לדוגמאות 
האימון. אך באיזה מודל היינו בוחרים כדי לחזות את הפלט עבור 
דוגמא חדשה שהמודל לא ראה בשלב האימון?(החץ באיור) 



1 = x ו 1 קח 1 


איור 15 . בעיית התאמת יתר 


(71611701 !\[6710 8/07 > 071 ט\ז x111116 760,771171% 1 כ ^ 
1/711^67811)1 0/70707110, 060//76) 711711071) 


הבעיה היא שהמודל מתאים באופן מושלם לדוגמאות האימון ומניב ביצועים עבור דוגמאות המבחן. נובע ממספר רב 
של שכבות חבויות ופרמטרים. 
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איור 16 ממחיש כיצד עלייה במורכבות הרשת גורמת מצד אחד להתאמה מושלמת יותר ויותר לדוגמאות האימון, 
כאשר מצד שני התוצאות על דוגמאות המבחן(דוגמאות חדשות) גרועות יותר ויותר כפונקציה של עלייה במורכבות 
הרשת(מנקודה מסוימת והילך). אנליזה זו קרויה 6 נ>ן 11 > 1 ^י 8 ע 8 ^ 81 . 18 ) 1 ( 1118111 - משמע שהרשת לא מתאימה 
לדוגמאות האימון ובוודאי גם לא לדוגמאות המבחן ־ בד״ב אינדיקציה לכך שהמודל לא מספיק אקספרסיבי(יש להוסיף 
פרמטרים ושכבות) ואילו 6 ס 1 ן 1 ) 01-1 ע 11 § 111 - משמע שהרשת במצב התאמת יתר, ולא פרקטית עבוד דוגמאות חדשות 
(יש להוריד שכבות ופרמטרים). הבעיה כמובן היא שכאשר היחס בין הקלט לפלט מורכב מאוד, מוכרחים רשת עם 
מספיק שכבות חבויות ופרמטרים בדי למצוא מודל טוב עבור יחס מורכב. אי אפשר לוותר על שכבות ופרמטרים כי 
אז המודל לא יהיה מוצלח אפילו על דוגמאות האימון. ואז מתעוררת בעיית התאמת יתר שאינהרנטית לרשתות עמוקות 


מרובות פרמטרים ושכבות. 



איור 16 . בעיית התאמת יתר כפונקציה של מורכבות הרשת 


& 10(1 ( 2015 ) 


איור 17 , מציג את בעיית התאמת היתר מ 2 פרספקטיבות. אילד 21 מראה מודל מורכב(שחור) אל מול מודל פשוט 
יותר(אדום). ניתן לראות שלמרות שהמודל השחור מתאר באופן מושלם את היחס בין הקלט לפלט בדוגמאות האימון, 
אין למודל זה ערך פרקטי בחיזוי עבור דוגמאות חדשות. בעוד שהמודל האדום אינו מתאים במדויק לדוגמאות האימון 
אך בעל ערך לחיזוי הפלט לדוגמאות חדשות. איור 8 מראה את הטעות של המודל עבור דוגמאות האימון ועבור 
דוגמאות המבחן(דוגמאות חדשות) כפונקציה של מורכבות הרשת. ניתן לראות שככל שמורכבות הרשת עולה הטעות 
על דוגמאות האימון הולכת וקטנה אך מנקודה מסוימת של מורכבות, הטעות על דוגמאות חדשות הולכת וגדלה בגלל 


התאמת יתר. 
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( 110661 () ? 161161 ) 861 1661161161% 0116 ^ $11161% 66 \ 0 ) 1 ז 6 ע 66 ק 10 8 ^ 61 ע\ 16116666 {/^) 


בעיית התאמת היתר מנעה מרשתות נוירונים עמוקות להניב תוצאות פרקטיות במשך יותר מ 20 שנה. כלומר, רשתות 
עמוקות לא יכלו לייצר מודלים שיניבו חיזוי יעיל בעולם האמתי עבור דוגמאות חדשות(דוגמאות מבחן). לא נמצא 
פתרון טוב לבעיה משנות ה 80 עד לשנת 2006 . למרות שבשנים אלו(מ 1980-2006 ) פותחו מספר טכניקות להפחתת 
התאמת יתר, טכניקות אלו, לא היו יעילות מספיק כך שרשתות נוירונים עמוקות יהיו פרקטיות . דוגמאות לטכניקות 
שפותחו הן: 


§ח 1£1 )־ 01 ׳\ 1 ) 19400101 0011011 ( 111 190180 ,£ח 1 קק 810 ץ 1 ־ 11 )£ , 111£ ־ש 811 1 ר 1 § 01 /\\ ,/ 0 ) 100 ) 1 ו 1 § ¥01 \ 
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5.1 § 3111111 י 6-71 י 1 ? 1 > ¥186 י 61 ק 11 § 1 !ס להפחתת התאמת יתר 

[ 5,12,13,14,19,20,21,33 ] 

לפני שנדון ב 11111111£ ־ 0-11 תק ג> ¥180 ־ 01 ק 1711811 צריך להבין את הרקע הטכנולוגי, ומדוע רק בשנת 2006 התאפשר 
לחוקרים למצוא טכניקות יעילות בפתרון התאמת יתר: מהירות המעבדים וזמינות של דוגמאות אימון דבלת 
באינטרנט. 

1 ) מעבדים מהירים ויעילים יותר התאימו להרצה של אלגוריתם הלמידה ברשתות נוירונים עמוקות מרובות פרמטרים. 
אפשרו ביצוע ניסויים וקבלת תוצאות תוך פרק זמן סביר. כיום עם המעבדים המתקדמים ביותר, אימון רשת עמוקה 
מרובת שכבות ופרמטרים יכול לקחת מספר שבועות. 


2 ) זמינות של דוגמאות אימון רבות בעקבות האינטרנט. בעיית התאמת יתר מחריפה כאשר אין מספיק דוגמאות אימון. 
מספר רב של דוגמאות אימון, גם כיום לאחר כל הטכניקות שפותחו, הוא הפתרון הטוב ביותר והיעיל ביותר לבעיית 
התאמת יתר. כשיש יותר ויותר דוגמאות אימון, לרשת יש הזדמנות ללמוד את היחס האמיתי בין הקלט לפלט שנמצא 
בעולם האמיתי ולא את הרעש שנכון באופן מקרי ליחס בין הקלט לפלט רק בדוגמאות האימון ולא בעולם האמיתי. 
איור 18 מדגים כיצד עלייה במספר דוגמאות האימון משפרת ביצועים על דוגמאות המבחן. 



( 0 )^_ 

( $126 $61 £ח}מ 31 זז) וזז 

איור 18 . השפעה של הוספת דוגמאות אימון על בעיית התאמת יתר. 

501 ן>ח/ת/ 70 ) ססס/( 9 מו 1 )ו/ז 1 01/6 ח£/\ 6 ־ונן 0 ) 5 /( 1 6/0 6 ־ 01 ) 10 )/\/\) 

( 0 ־ 0001 ? 0 ) 010 


הטכניקה הראשונה שלמעשה ההייתה את כל נושא למידה עמוקה ורשתות נוירונים עמוקות פותחה בשנת 2006 ושמה, 
2 ח 1 ח 111 ־ 0-11 ־זק 1 ) ¥180 ־ 01 ק 1711811 

בשנת 1985 גיפרי הינטון המציא אלגוריתם וארכיטקטורה ל 1111£ ס 1103 ) ¥180 ־ 01 ק 1111811 הקרויה 
( £14 ) £011211111111114110111110 . זהו למעשה פיתוח של:>[־ ¥01 \ 01 ז 16 > 01 ב 1 ק £10 . האנרגיה הכללית של £14 זהה 
לאנרגיה הכללית של 10 -נ ¥0 \ 11461 > 01 ב 1 ק £10 . ב 10 ־נ ¥0 \ 61 ז£ 1 ) 01 ב 1 ק £10 שואפים להגיע למינימום אנרגיה, וב £14 
למצב שנקרא 10111 ־ 011161 ^ 111110 ת 460 . האלגוריתם של £14 אינו יעיל,(" 10 ) 0 , ואינו שימושי. 
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(]/\ 881 ) 13011130 ^ 1 801121331111 1 ) 808111010 בעל אותן עקרונות כמו רק עם ארכיטקטורה מוגבלת. יש 
משקולת רק בין יחידות משתי השכבות סמוכות ואין קשר בין יחידות באותה השכבה. איור 19 מציג דוגמא ל ]/\ 881 . 


ח 101016 ו] 


16 כ 1511 /\ 



איור 118.19 

/ 0 ^ £7811 ^( 1 § 71111 ז 1 )£¥ 16 ן 11 ! 4610 \! 07 /$) 071 ?\\}£א 11 ) £117 ^ 1 ) 

( ¥11111011 ^ £0$7£ נ), ¥0707110 


גם האלגוריתם של ]/\ 881 אינו יעיל ואינו שימושי. אלא שלקראת 2006 , הינטון וצוותו, מצאו קיצור דרך לאלגוריתם 
המקורי, שאפשר לבצע § 113 ת 1103 ) 180 ר 01 ק 311¥03383 ־ 00301 ב ]/\ 881 באופן מהיר. לאלגוריתם הזה קוראים 
0300 §־ 61¥01 ס^!!^!^). בנוסף, בשנת 2006 הינטון וצוותו, מצאו דרך לחבר 4 \ 1181 אהד על גבי השני ולאמן את 
כל ה 488 \ 81 בצורה מהירה (כך שמתקבל מודל עמוק אהד). האימון המהיר של 488 \ 81 אחד על השני מתבצע 
באמצעות 10311113£ ־ 01 ץ 18013 ׳\\ ץ 1 ) 00 ־ 01 , אימון של שכבה אחת אחרת בכל פעם. הם קראו למבנה של 4 \ 881 אחד 
על השני( 0819 ) : 1901 ' 801101 כ[ 00 ( 8 . 

לסיכום עד באך, הינטוך ושותפיו בשנת 2006 מצאו דרך לבצע § 11111 ■ 11031 ) ¥186 ־ 61 ק 1111811 311¥0 ־ 61 מ 06 ברשת 
עמוקה באופן מהיר ויעיל יחסית. 

ובהקשר שלנו: 

הם מצאו שביצוע 31111112 ־ 11 1 ) 980 \־ 01 ק 80 חט 0 י\ 311 ־ 001101 לפני ה 1111111 ־ 01 ״ 111 חס 1 ז 3 § 3 קס־ 1 ק> 8301 מפחית את בעיית 
התאמת יתר! 

ה 31313£ ־ 1 ! 1 ) 080 ־ 01 ק 3383 311¥0 ־ 00301 מניב ערכי משקולות. ועם ערכי המשקולות האלו מבצעים את 
111131 ־ 01 § 31 3 ס 3£311 קס- 1 ק:> 8301 הרגיל והמוכר, על מנת לבצע § 10313 8130 לערכי המשקולות ולשפר את דיוק 
הקלסיפיקציה. טכניקה זו נקראת בספרות 31111112 ־ 0 -11 ־ 1 111 } ¥186 ־ 61 ק 311¥61111811 ־ 001161 , מכיוון שהיא מתבצעת 
לפני ה 111101 ־ 31201 ח 2110 ״ 2 ק 0 ־זק> 1 :> 62 1¥0 ; 11331 נ 11 ־ 1801 ( 8 . 
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הפרטים של האלגוריתם המקורי של הליך הלמידה המתבצעת ב והפרטים לגבי אופן ביצוע קיצור הדרך 
הנקרא 6 ס £611 ־ 01¥61 3811¥6 ־ 201111 ) יחד עם 163111111£ ־ 61 ץ 13 ¥186 \ ץ 1 ) 6 ס־נ 0 והסיבות מדוע קיצור הדרך מוצלח, הם 
עבודה בפני עצמה. ניתן לקרא ולהתרשם מפרטים אלו בבהירות ב[ 19,20,21 ]. באופן עקרוני האימון המסורתי של 
1 ^ £81 ועדכון המשקולות הצריך מעבר סדרתי ארוך מאוד, בין היחידות הנראות( ¥18113161111118 ) והיחידות החבויות. 
בשנת 2006 נמצא שמעבר אחד בין היחידות הנראות והיחידות החבויות ועדכון המשקולות על פי מעבר זה מייצר 
מודל טוב מספיק של הנתונים. 

5.1,1 ניתוח השוואתי, בין ביצועי רשתות עם ובלי 1 ) ¥186 ־ 61 (ןו 181 ו 11 

[ 19,20 ] • 

המאמר הקנוני שגרם לתחייה מחודשת בעניין המחקרי ברשתות עמוקות התפרסם ב 2006 ע״י הינטון ושותפיו [ 19 ]. 
מאמר זה מבצע השוואה בין ביצועי רשת עם 311¥616111111 ־ 61161 § 1 ) ¥186 ־ 61 קג 111181 לרשתות אחרות ולשיטות 
אחרות של למידת מכונה. חשוב לזכור שעד אז לא היה ניתן לאמן ביעילות רשתות נוירונים עמוקות בגלל בעיית 
התאמת יתר. השיטות המוצלחות ביותר עד אז היו גרסאות של 191361111168 ־ ¥66101 1 ־ 01 קק 811 . הרשת המוצלחת 
ביותר עד אז שהתגברה על התאמת יתר, הייתה 1.61961 שהומצאה ב 1998 , הסיבות ליעילות שלה ידונו מאוחר יותר 
בפרק מסי, אציין שעד היום משתמשים בה במערכות בנקאיות לזיהוי כתב וחתימות בהפקדות ציקים. 

מטרת הניסוי: השוואת השיטה החדשה ל £111¥6163111111£ ־ 61161 § 1 ) ¥186 ־ 61 ק 1111811 ( 66 מ 6 §־ 01¥61 3811¥6 ־ 301111 )) מול 
אלגוריתמי למידה אחרים במשימת זיהוי ספרות שנכתבו בכתב יד. בסיס הנתונים היה י 1191$1 ^ 1 שהוא בסיס נתונים 
מאוד מוכר וגדול של ספרות שנכתבו בכתב יד. בסיס הנתונים מכיל 60,000 דוגמאות אימון ו 10,000 דוגמאות מבחן. 
ניתן להשוות את ביצועי הרשת של הינטון ושותפיו, עם סוגים שונים של רשתות ושיטות, כיוון שבסיס נתונים זה מאוד 
שכיח בהרבה עבודות של למידת מכונה ו 0£11111011 ס 6 ־ 31161111 ?. 

תוצאות: ניתן לראות מאיור 20 שהרשת עם §מ 11 ת 311¥6163 ־ 61 מ 06 של הינטון ושותפיו, הניבה רק 1.25 אחוז טעות 
על 10,000 דוגמאות המבחן. לרשת של הינטון ושות' הייתה 3 שכבות חבויות. בעוד שרשת עם 2 שכבות חבויות 
שאלגוריתם הלמידה היה 311011 § 3 ק 1-0 ק;> 6361 עם ץ 111 0663 § 3¥61 כמתודה להפחתת התאמת יתר, הניבה 1.51 אחוז 
טעות. רשת עם 2 שכבות חבויות עם 3£311011 ק 0 ־ 1 ק:> 6361 ועצירה מוקדמת כמתודה להפחתת התאמת יתר, הניבה 
1.53 אחוז טעות. 

סיכום: במשימה של 11111011 § 660 ת 11 ־ 31161 ?, § 111 מת 311¥6163 ־ 61 מ 06 של הינטון ושות' מוצלחת יותר מ 
311011 § 3 ק 0 ־[ק;> 361 ? בתוספת שיטות להפחתת התאמת יתר (§ 111 קק 810 ץ 1 ־ £31 & ץ 111 0663 § ¥61 \■) זוהי תחילתה של 
נקודת המפנה. 

יש לשים לב, למספר השכבות החבויות של כל רשת. ה § 1111 ת 311¥6163 ־ 061161 אפשרה להוסיף שכבות חבויות. 
כלומר להוסיף כוח חישובי ואקספרסיביות תוך כדי התמודדות טובה יותר עם התאמת יתר שנובעת מהוספה זו. ללא 



29 


§ 1111 דנ 6163 ׳\ 311 ־ 61 ן 061 הרשתות הטבות ביותר הכילו מקסימום 2 שכבות חבויות. זה מרכיב שצריך לשים לב אליו, 
שמבצעים ניתוח השוואתי בין רשתות. במידה ומוסיפים שכבות חבויות ומצליחים לשפר את ביצועי הרשת בעקבות 
הוספת שכבות חבויות, זה אינדיקציה לטיפול טוב בהתאמת יתר. 

התאמת יתר מתעוררת כאשר מוסיפים שכבות חבויות. למרות שבאופן תיאורטי הוספת שכבות חבויות אמורה תמיד 
לשפר את המודל. ניתן לראות שהשיטות ללא §מ 1 מ^ 1¥01 ^-נ 0 ן 001 היו עם 2 שכבות חבויות, כלומר השיטות לא 
אפשרו הוספה של שכבות בגלל התאמת יתר. אולם, הרשת של הינטון ושות' הייתה עם 3 שכבות חבויות כלומר 
השיטה שלהם אפשרה להוסיף שכבה חבויה, ולשפר המודל בעקבות הוספת השכבה. מכיוון שהשיטה שלהם מתמודדת 
ביעילות עם התאמת יתר. 

במאמר זה שהובא לעיל, מ 2006 הינטון ושותפיו הציגו את §ן 111 ת^ 1 ^!ז&־נסבנסס , מול אלגוריתמים אחרים. 
ה §ן 111 דש 1€ ס 1¥ ^־נ 0 ן 1 ס 0 במאמר קנוני זה לא הגיע כ §ן 11 ן 111 >־נ 6-1 ־נ?. רק מאוחר יותר הינטון פיתח את הרעיון של 
ביצוע §ח 1 ח 11 :־ 6-11 ־ 1 ק 18001 '\־ 01 ק 811 ח 11 ולאחר מכן §ח 1 ח 111 1110 ? באמצעות חס 11 ^§גקס־ 1 ק> 101 ^ 6 , כפי שמובא בפסקה 
הבאה. 


איור 20 מציג את ההשוואה שבוצעה ע״י הינטון ושותפיו ב 2006 . 


-§ 600 מ 01£14 1$7 א 1 \ 10 ־ 41 1 ־ 01 8 ת 1 ו 11 ת 0 § 1 \^ §ת 1 ות 163 10115 ־ 31 ׳\ 0£ 3168 ז ־ 01 ־ 1 ־ £1 : 1 731716 

. 73514 114100 ־ 1 


73514 157 א 1 \ 04 ת 510 ז 6 ע 

120x141x1x1 ^ §ח 1 תז 3 ^ 1 

% 1 י 0 ו£ 1654 

1304 ־ 31 ־ 104 1*6X1041434100 

010 2606X34140 6 ־ x00161: 

784 — 500 500 2000 -10 •*-י 

1.25 

3X13X11 ־ 11X4 ח 3110 ז 11111 ז 6 ? 

51 66401 ׳ 4 4 ^)יןק 11 י x13611106: (162X66 9 
£>01^0001131 106X061 

1.4 

3X13X11 ־ 1X14 מ 10 ) 3 ) 11 מ 611 ק 

10 — 300 •*- 500 — 784 :ק 0 ^ 8361 
׳►' 612114-41663 ־ 44 1 ) 30 ׳׳(ק 0 ־ 055-6041 ־ 61 

131 

1063x1304 ח 10 ) 3 ) 111 מז 6 ק 

10 •*- 800 — 784 :ק 0 ^ 8361 
102 קק 540 ׳ 30(1 63x14 ץק 61055-611410 

1.53 

1304 ־ 31 ־ 104 1*6X1X141431100 

10 — 150 ■״- 500 •י- 784 :קס ז ק 83610 

54} 113X641 6XX0X 30(1 00-1106 41 £>413465 

2.95 

4*6X1011434100 1043 ־ X1304 

18163X654 0612^41>0X: 311 60,000 6X30^165 
30(1 1_3 00 x 10 

2.8 

1*0X1011434100 1043 ־ X1304 

06121 631654 א x1>0x: 311 60,000 6X310}? 165 
30(1 1-2 00 x 10 

3.1 

1*6X0X0434100 1043 ־ X1304 

1 ) 30 165 ק 20,000 6x30x ד 01 י 1 *? 0612 863X654 ? 
13 00 x 10 

4.0 

1*6X0X11434100 1043 ־ X1304 

1 ) 30 165 < 20,000 6X3X0£ :ז י 4 י 11 ^ 0612 163X654 )<! 
1-2 00 x 10 

4.4 

170£>616 ; 65 ^ 1103 1 * 101146 ־ X4X3 
11343 4x001 6135410 
(1640X01341005 

8361^ ק x03041 ־{< 0£ ־ 1055-6041 * :ק 

63x1 >0611 0111410031 ־ 6004 102 ק< 540£ -־ X31 064 

0.4 

641 ־ 514644 ־ 10 ) 1 ) 1146 מ 611 ק 0 ע 

1013^65; 6x4x3 01343 4x001 2 
£11X01 4X30513410X15 

^1x44131 (162X66 9 £>01^001X4131 

1(6X061 

0.56 

65 ^ 1146(1 10x3 מן 61 ק 120 

81x3£>6-60046x4 463441x65: 1430(1-60*16(1 
x03461x102 

0.63 

1706 ; 65 § 13 מ 1 1 * 01146 ד 61 ק x4x3 
(1343 4x001 344106 
4x30540x0x341005 

836141 י£י 14 ק X1 1-6?8645: 60040141410031 ־ 
0641X31 064 

03 

00^6X0X1146(1 10X3^65 

0141410031 ־ 6004 : 8645 ? 1-6 ס! ק 10 ק 83614 

0641X31 064 

0.95 


איור 20 . ניתוח השוואתי §מ 1 מ 37 ^ 61 ^ 1 ^ 06067 1 ) 18€ ׳\ 61 ק 811 מ 11 אל מול שיטות אחרות 

1111177 ^ 0 § 01 1601711178 £081 71 .( 2006 ) .¥\ .¥ , 7611 £> ,. 8 , 161-0 ) 05117 ,.£ . 0 , 111111011 ) 
(. 1527-1554 ,( 7 ) 18 , 111011 ) 111 ( 001171 611701 11 . 66116/17618 (ן 166 ) זס/ 


מאמר קנוני שהתפרסם ב 2007 , ע״י גיפרי הינטון [ 20 ] , הראה ש §ן 11 ן 111 דנ 0-4 ־נק 1 ) 180 ע־נ 0 קג 81 ן 111 ולאחריו הביצוע 
הרגיל והמוכר של 1111111 ־ 01 § 31 בנסבז&^&כןס־נכן^ס&ו! ס £11:1¥ ן 111 ו 11 ־נ 180 כ 1 , מניב תוצאות טובות בהרבה, מרשתות ללא 
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£ן 111111 דנז- 1-6 ק 1 ) 61¥186 ק 811 ן+ 1 . איור 21 , מציג את ההשוואה. גם עבודה זו בוצעה על "ר 18 זאנ 4 \נ, והמשימה היא זיהוי 
ספרות שנכתבו בכתב יד. 60,000 דוגמאות אימון, ו 10,000 דוגמאות מבחן. 
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01 8018 ( 8111 . 1 ) 010 ( 1111181 ,; 0111 ־ 11561 ) 011 1 ) 101131110 ק 111¥ ) £100 ¥010 \ 0 ) 0 ז \ 1 ) 811 ,( 1 ) 0 ^ . 3 ) 10 ^ : 1 10 כ 1 ^ז 
1110 1108 § 11118 10,000 01 8018 1811011 ) ¥811 01111 [ 118 ) 01110¥111£ ־ 1 ¥( 1 1 ) 181110 ( 01 0 ־ ¥01 \ 11181 1818 ) ^ 8111111 ־ . 
,41(01 חס !!! , . 1011 ) 8£8 ( ן 10 (}) 1 ') 8 ( 1 § 118111 81108018 881110 111080 011 1 ) 81110 ־ 11 ¥010 \ ץ 1110 •§ 18111111 ) 10 ק ־ 
1110 111 ) 080110 ־ 1 ־ 01 ־ 1 ־ 01 ¥ ק 10 ) 011 ־ 01088 1110 811111 801 ^ 8111111 ־ 11 1111 ־ 1 1110 011 1 ) 0111111110 ) ¥88 \ ^ 8111111 ־ 
1110 010 1011 * 1101 ־ X 1)181110(1 111 1110 10 X 1. 

איור 21 . ניתוח השוואתי עם ובלי §מ 1 ן 311 ־ 71 ־ 6 ז? 1 ) 1$6 ׳\־ 61 קג 51 ן 1 ס 

(111111011, 0. £. (2007). 70 1 016 ־ 61161 § 10 11 ־ 1601 81 ?$ , 10$68 \ 8 11116 § 600 ־ 

11710§68. 71 535-547 , 165 , 011 ־ 68601 ־ 1 0111 ־ 01 111 688 ־ 1 § 0 ־ .) 


ניתן להתרשם שרשתות שעברו §ח 1 חש־ 11 -£־זק 1 ) ¥18€ ־ 0 קט 11118 ולאחר מכן הניבו כ 1.1 אחוז 

טעות ורשתות עם £££11:1011 ק 0 )ק)[ 0 ^ 6 ללא הליך מקדים הניבו 2.27 אחוז טעות. כלומר רשתות עם 1 ) ¥18£ ־ £1 ק 111188 
£ן 11 ן 111 דנ 6-1 תק ולאחריו מניבות את התוצאות הטובות ביותר בשנת 2007 . 

מכיוון שהעבודה מ 2007 התבצעה על אותו בסיס נתונים כמו הפרסום הראשון מ 2006 . נוכל אנו כאן 

לבצע עצמאית אנליזה נוספת(איור 20 ואיור 2 1 ). וניווכח שרשת עם £ן 11 ן 311 ־ 6-11 תק £¥נ 1 גח£ £611 1 ) ¥18£ ־ £1 ק 88 מ 11 
ולאחריה ן 1 ס ££111 ^קס־ 1 ק;> 61 ג 0 מניבה 1.1 אחוז טעות ויעילה יותר מרשת עם £ן 111 ת 1¥6 163 :)^־נ 6 מ £6 1 ) ¥186 ־ 61 ק 111188 
לבד ללא ן 1 ס 1 ) 3£3 נ 1 ס-נק:>[ 036 המניבה 1.25 אחוז טעות. 

5.1.2 מדוע £מ 1 מ 31 ־ 06-71 ? 1 >© ¥18 ־ 61 (ן 188 ו 11 מפחית התאמת יתר? 

[ 13,20,27,32 ] 

1 . מנקודת ראות של אלפעימיזעיד,. המשקולות שאנחנו מתחילים איתם את ה 1 ו 1 ן 111 ־ 31£01 ן 1 ס £1£311 קס־ 1 ק;> 0301 הם 
לא רנדומליים אלא אנחנו מתחילים עם ערכי משקולות שיכולים מאוד לעזור ב 8816 ) 311¥6 ן 111 ו 11 ־ 1861 ס שמתבצע ב 
ן 1 ס 3£311 קס־ 1 ק;> 1 ס 03 . כלומר נקודת הפתיחה היא מאוד טובה עבור ה ן 1 ס 3£311 קס-נק;> 1 ס 03 . הגרדיאנטים הראשוניים 
לפני התחלת הן 1 ס 3£311 קס־נק;> 1 ס 03 כבר טובים ויש לבצע רק חיפוש לוקלי מנקודת התחלה טובה. 
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2 . מנקודת ראות של התאמת'(זר. הקלט לבדו מכיל הרבה מאוד מידע, יותר מ ה 0111161 ( 0111161 = הפלט המתאים 
לכל קלט), שחשוב ל 11180 1¥6 ז £1 ן 111 נ 11 ־נ 0180 . כשמבצעים 111111£ ט־ 6-0 ־נק 1 ) ¥180 ־נ 0 ק 80 מ 11 לא מבזבזים את המידע 
החשוב הזה שהקלט לבדו מכיל. ערכי המשקולות הסופיים נקבעים בעיקר מהמידע שהקלט מכיל. כפי שראינו במאמר 
הקנוני הראשון של הינטון ושות' ,§ 1111 דנ 1111¥6163 -נ 06116 בלבד מצליח לספק ערכי משקולות טובים יותר 
מ 11 ס 11£1111 קס-נק 61160 שמשתמש רק ב 0111161 , ולא במידע שמכיל הקלט. כפי שראינו אחר כך, במאמר הקנוני השני 
של הינטון, ביצוע של 11 ס 111 £ 1111 [ס־נק 0 ס 611 לאחר ה 111111£ ט־נ 6-1 ־נק 11¥6 ט־נ 06116 משפר עוד יותר את ביצועי הרשת. 
אנו משתמשים במידע המאוד יקר ש ה 0111161 מספק לנו רק בסוף, ב §ן 11 ן 1 טז 01116 . כלומר ה- 6 ־נק 1 ) ¥186 ־נסקג 81 מ 11 
§מ 1 ט 1 ט־נז מגלה את כל ה 06111111-68 החשובים (מגולם בערכי המשקולות) מהמידע שבקלט. וה §מ 1 טטז 01116 משנה 
מעט את 6111111-68 ? רק למקם נכון את ה 11117 ) 06018100001111 , כך שנבצע טוב יותר את הקלסיפיקציה. 

5.1.3 ? 811¥ ־ 111 ק$ & § 3111111 ־ 6-71 ־ 1 ? 1 ) ¥186 ־ 61 ק 1111811 

[ 8 , 27 , 28 , 40 ] 

נקודה תיאורטית מעניינת שלא נדונה בהרחבה בספרות המקצועית בהקשר להשפעה של - 6 תק 1 ) ¥186 ־ 61 קט 8 ט 11 
§מ 1 מ 111 ־ 11 , היא ש §מ 1 מ 6-11-111 ־ 1 ק 1 ) 486 )- 61 קג 181 !ז 0 גורם למודל דליל, כלומר, לדלילות בפעילות של הנוירונים בשכבות 
החבויות. לפני שארהיב על ההשפעה של §מ 1 מ 6-11-111 ־ 1 ק 1 ) 486 ר 61 ק 1111811 על דלילות המודל, אסביר בקצרה מה 
הכוונה במודל דליל(ץ 811 ־שק 8 ). 

הסבר כללי בנוגע ל!( 11 ^ 0 ק 5 

עבור כל דוגמת קלט, רק תת קבוצה קטנה ספציפית מסך כל הנוירונים פעילה, בתגובה לאותו הקלט(עבור דוגמאות 
קלט שונות תת קבוצה שונה פעילה) 

אייר 22 ממחיש 1:111011 ) 11611 1111118 1011 ) 1114 80 ־ 11 !ק$ 
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איור 22 . דוגמא לכוונה במודל דליל(ץ] 2181 ק 5 ). רק חלק קטן מאוד מהנוירונים בשכבות החבויות פעיל בתגובה לכל 
קלט. 


(0\001 ז , X., 1101x185. <6 88/1§10. ¥. (2011, 211118). [)( , {1181:50/115 11811/111 '!')))!]'}')יו 0/58 ק 5 ק׳ . 

111 6/008881111^5 0/1118 ¥0111-1881101 111181-110110/101 ^ 011/81-8/108 011 5/11/10101 1/118111^8/108 0/10 5101151105) 


§ 600110 86 ת 0 ק 8 הוא מושג מרכזי ב 086161166 ־ 61:100106111 ־ ¥11601 ובמדעי המוח. זו למעשה הדרך שבה המוח 
הביולוגי מקודד אינפורמציה, ומה שמעניק למוח יעילות בביצוע קלסיפיקציות וקיבולת מוגברת. נדון בהרחבה ב 
110£ ) 00 86 ת 0 ק 8 ו ץ 811 ־נ 0 ק 1618 ) 610 ? בהמשך. 

¥56¥1655 . 0 (/ 8 65 ^ 1% 7116010X1 ז 11 ץ 11 ) 7¥6-7¥ 11 !) 15 עי 01 (ן 1111511 

[ 27 ] 

ס 0 ס¥ 1 ) 00 ,§ס ¥0 , 71 , 1.00 [ 27 ] מצאו ש £ח 0101 ־ז; 6-1 ־זק 1 ) 086 ר 61 ק 11080 גורם באופן ישיר ל 688 ס 86 ת 0 ק 8 
בשכבות החבויות. בנוסף, ככל שמבצעים §ס 1 ס 01 ־נ 6-1 ־ 1 ק 1 ) 086 ר 61 ק 11080 ארוך יותר, כך מתקבל מודל דליל יותר. 

חוקרים אלו השוו במאמרם [ 27 ] בין רשת עמוקה סטנדרטית שאומנה באמצעות קס־ 1 ק:> £001 ורשת עמוקה שמורכבת 
מ £¥18 .£ כלומר שאומנה באמצעות 01010£ ־ 6-11 תק 1 ) 086 ר 61 ק 11080 . הם מדדו והשוו את דלילות המודל בכל סוג 
רשת. הם מצאו שרשת עמוקה שמורכבת מ ££¥18 מהווה מודל דליל יותר בהשוואה לרשת ללא 1 > 086 ר 61 ק 11080 
01010£ ־נ 6-1 ־ 1 ק. בנוסף, חוקרים אלו מצאו שככל שה 01010£ ־נ 6-1 תק 1 ) 086 רנ 6 ק 11080 היה ארוך יותר, כלומר יותר 
0118 סק 6 §ס 1 ס 01 ־נ¥, המודל נהיה דליל יותר ויותר. 

חשוב לדעת שמודל דליל זה אינדיקציה למודל טוב שמניב מדדי דיוק טובים יותר בשלב המבחן, והתמודדות טובה יותר 
עם התאמת יתר. נחזור לדון ב ץ 811 ־נ 0 ק 8 ו § 10 !) 00 86 ת 0 ק 8 , ומדוע זה קשור להתאמת יתר, בפרק הבא. 
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5.2 108 ־ 611¥01 \ 1 31 ־ 6111 ]< ־ 60111161 * 1 86 י 31 ק 8 נן 060 

[ 9,15,16,17,30,35,42 ] 

5.2.1 ־ 00111101 * 1 

כאן המקום להזכיר מרכיב של רשתות נוירונים שנדון בחלק הראשון של עבודה זו והוא פונקציית אקטיבציה. 
פונקציית אקטיבציה מגדירה את הפלט של הנוירון בהינתן הקלט. עד לשנת 2011 פונקציות האקטיבציה השכיחות 
היו 1 ) 101 ב 1 § 81 181 : 10 § 1x1 או 11 בשז כמוצג באיור 23 . 


0 . 


. 0 ־ 

3-2-10123 - 



איור 23 . פונקציות אקטיבציה שכיחות( 1 81 .131111 > 101 ת 81£ ) עד לשנת 2011 . 

(010701, X., 807(168, 24 ., <£ 8671§10, ¥. (2011, ]11716). 066(2 8(20786 76071/167 716117(11 7167X^071(8. 

( 5707187108 1 ) 071 67106 § 17176111 24 771/10101 071 0071/6767106 21 ) 17176771071071 8011776671711 0/7116 8 § 1171 ) 870066 ח 1 


פונקציות אקטיבציה אלו היו שכיחות בגלל המאפיינים המתמטיים שלהם שהתאימו ל 
וז! 1111 ־ 01 § 01 ן £11101 § £1 ק 0 ־[ק 33010 נ. כפי שפורט והורחב פרק 2 . 

אך ישנה עוד פונקציית אקטיבציה אפשרית, בשם ־ 1100111101 . ההגדרה של הפונקציה מאוד פשוטה: 


x>0 

0^)=0 x <=0 



ס 1 § 6011 ושות' מצאו 2 ממצאים עיקריים: 
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1 . רשתות עמוקות עם £6011061 מניבות מדדי דיוק טובים יותר מרשתות עם פונקציות אקטיבציה שכיחות 
שעברו 16-113111111£ ק 1 ) 61¥186 קג 171181 כלומר, ■ £60111161 מפחית התאמת יתר טוב יותר מ 
§ 16-113111111 ק 1 ) 180 '\־ 01 ק 811 ח 11 

2 . 16-113111111£ ק 1 ) 486 \ 61 קג 111181 לא משפרת את התאמת יתר ברשתות עם £6011061 , מעבר לשיפור 
שה £6011061 גורם. 

נבצע ניתוח השוואתי בין הביצועים של 8 :>[ 01 ׳\\ £60111161116111311161 לרשתות עמוקות עם פונקציות אקטיבציה 
אחרות. ונבחן את ההשפעה של 16-113111111£ ק 1 > 186 \ 61 ק 811 ח 11 על סוגי הרשתות השונות. 

5.2.2 השוואה בין > 1 ־ 1 ס 0 \ 61 א 31 ־ 1X6111 ־ £6011061 לשיטות אחרות. 

מטרות הניסויים [ 15 ]: השוואה של רשתות עם פונקציית האקטיבציה £6011061 , לרשתות עם פונקציית האקטיבציה 
731111 . 

בנוסף, נבחנה ההשפעה של 16-113111111£ ק 1 > 61¥186 ק 811 ח 11 על כל אחת מהרשתות. כל בסיסי הנתונים שעליהם 
נעשתה ההשוואה קשורים למשימת זיהוי אובייקטים ו 68 § 11113 . ידמא^[, בסיס נתונים שכבר הכרנו, לזיהוי ספרות 
בכתב יד. 10 -£\׳ 0£ - תמונות צבעוניות של אובייקטים שונים המחולקים ל 10 מחלקות(מטוס, מכונית, צפור, 
חתול, צבי, כלב, צפרדע, סוס, ספינה, ומשאית). ? 14181 - ורסיה של 14181 עם עיוותים, משימה קשה יותר 
מ 14181 . 140££ - תמונות של צעצועים מחולקים ל 6 מחלקות. 

איור 24 מציג את תוצאות הניסויים: 

• באופן גורף £6611061 טוב יותר מרשתות עם פונקציית אקטיבציה 131111 

• § 16-113111111 ק 1 ) 610186 קג 81 מ 11 מועיל רק לפונקציית אקטיבציה 1 [ 1311 ולא ל £6011061 

• £6011061 ללא §מ 1 מ 16-1131 ק 1 ) 186 \־ 61 ק 811 ח[ 1 . טוב יותר מרשתות אחרות עם 1 ) 186 \ 61 ק 1111811 
113111111£ ־ 16 ק 

מאמר זה היווה נקודת מפנה במחקר שעוסק ברשתות נוירונים והתאמת יתר. אין צורך יותר ב - 16 ק 1 ) 186 ר 61 קג 111181 
§ 111 מ 1131 , אותו מרכיב שגרם לתחייה מחודשת של רשתות נוירונים עמוקות ב 2006 , דעך ב 2011 , לטובת 
8 > 1 ־ 01 ׳\\ 1161 11611131 £6011061 . 
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1: '1>03£ 130111 .■ 3 .נ 11 בן 10 > ' 01 . 148 ־ 01 ז \< 61 ונ 011 זס־ו־וס 

1 ' 11 14 111111 •־ 1 0011 ^ 1101 3.101100 נ׳ 111% ן> 0 11 ־ 5111115110 050£11 ז<ן 0 ז 0511115 ־ 

111111 1110 ־ 11111:101 .§ 1111 וו.מ־ו. 1 ־ 0 ־)<ן . 11110111 ־^ 1 * 1111 111 ו־*י , 1.8 ח 11110 ת*אן 
11X1101110515 01" 11:10 [>1110 ). 0 — <; נ 111 ׳\\ 1 אר.> 1 50 ו 0 \־וו . 


1 ו 0 'ווו־*^ל 

0 013 ־^ 1 1 1 סנ מ^-ווס ן 


1111511 

8 תו 1 ונמ־ו>- 0 יונן 1 > 150 ז , 1 ־ו 0 < 1 


־ 1111.011 ־ 11001 

%>מ 2 . ו 

49.9(;% 

3 2.■536% 

1 6.40% 

! 1 מ!^חר 

1.163% 

50.70% 

35.539%. 

17.66% 


11 

5 ן 11111 ו 11 ־ 11 ־ו 6 ־ו< 1 1 > 5€ ! ׳ 1 " 0£ כן 11511 ו 1 )!זסארר 

ו-.ו*;ו>-.}| 

1 .43% 

50.80%. 

4% ;). 2 ־ 3 

1 0.40% 

X1 ^ת |^ 

1.57% 

52.52% 

36.46% 

19.29% 



איור 24 . השוואה בין • £60111161 ורשתות אחרות והשפעת § 111111 ^ 1 ־ 6 ז£ 1 ) 186 ^ 61 קט 8 ן!ע 

(€1070 ־ (, X., 807 . 8 ) 1 ־ 7 סט\) 710 01 ־ 0007 ־ 1/107 ) 00 ־ 7 80 ־ 7 סק 8 ק 00 ( 1 .( 7 11116 , 2011 ) .¥ , 10 ^ 800 £* ,.\) , 808 ־ 

0085101181108 0000 ^ 0111 ) 1/1010110 )־ 7 \) סס 0000 ־ 000/07 10001 ) 00 ־ 07 ) 1110 ) 000 ) 8000 110 )/ 0 8 ^ 0000810 ־ 87 ס! .) 


5.2.3 מדוע ה ־ £60111161 יעילה בהפחתת התאמת היתר ? 

[ 1,2,15,16,17,22,37 ] 

התאמה טובה יותר לפעילות של נדרי; בידלמי י׳ס' 51 ת 0 ק 5 . הייתה מחשבה שהפונקציה הסיגמואידית ודומותיה 
מתאימות לתיאור פעילות של נוירון ביולוגי בגלל הרציפות וההגעה לרוויה. אך אם נתבונן ברזולוציה גבוהה( 200111 
111 ) נראה שלא כך הדבר. הפונקציה הסיגמואידית מפספסת תכונה מאוד חשובה של הנוירון הביולוגי והוא ץ 811 ־שק 8 . 
איור 25 מציג את פעילות הנוירון הביולוגי. 



9 - (\/) : 0111 ־ 1 ־ 01.11 1 ג 1 <ן 1 ז 1 

x 10 

איור 25 . פעילות הנוירון הביולוגי. 

הפעילות, הפלט, של הנוירון( 316 ! §ת 10 ?) כפונקציה של הקלט 

8 ){־ 7 ס<\\) 0 ס 01 ־ 7 חס!/ ־ 0011/107 ־ 7 80 ־ 7 סק 8 ק 00 ( 8 .( 8000 , 2011 ) .¥ ,ס 1 §ס 80 £> , 108 ) 800 ,. 01, X ־ 0107 ) 

1 ) 00 0000 ^ 0111 ) £711/1010110 סס 0000 ־ €00/07 0080001 ־ 07 ) 10008110 ־ 80117 0/1110 8 ^ 0000810 ־ 87 10 


כשמסתכלים במבט על( 2001110111 ), אכן פעילות הנוירון מאופיינת ע״י רציפות והגעה לרוויה בהתאמה לפונקציה 
הסיגמואידית. אולם אם מסתכלים ברזולוציה גבוהה יותר(מ! 1 ם 200 ) ריבוע אדום, באיור 34 . רואים שהנוירון 
מאופיין ע״י פעילות ץ:) 81 ־נ 3 ק 8 . מתבטא בכך שכאשר 0 => x הנוירון שותק ולא מגיב. ועבור 1.5 >.>ס 0 הנוירון 
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מאופיין בפעילות שהיא בקרוב ליניארית. ניתן להשוות גרף זה, של פעילות נוירון ביולוגי, מאיור 25 , ולראות את 
ההתאמה עם ה ■ 6011£161 ־ 1 המתואר בעמודים הקודמים. 

המוח הביולוגי מבצע §מ 1 !>ס 0 86 ־נ 3 ק 8 . בהינתן אוכלוסייה של נוירונים המטפלת בגירויים מסוג מסוים. רק תת קבוצה 
ספציפית של נוירונים מסך כל הנוירונים תגיב עבור כל גירוי ספציפי. זו הדרך של המוח לקודד אינפורמציה וזו הסיבה 
שהמוח הביולוגי יעיל מאוד בביצוע קלסיפיקציות. לצורך הפשטה, נציג את הדוגמא הבאה, כמובן שבמוח הדבר מורכב 
הרבה יותר וזה רק לצורך הדגמת העיקרון. נגיד ויש 10 נוירונים שמגיבים לריח(נוירון 1 , נוירון 2 , נוירון 3 ובו'). ונגיד 
שיש 50 סוגי ריחות(ריח 1 , ריח 2 , ריח 3 ובו'). עבור דית/: נוירון 5 ונוירון 9 פעילים, שאר הנוירונים שותקים. עבור 
דיז/ 2 : נוירון 4 ונוירון 6 פעילים השאר שותקים. עבור די 3/7 : נוירון 8 , ונוירון 10 פעילים השאר שותקים ועל זו הדרך 
בשאר הריחות. זו דרך מאוד יעילה לבצע קלסיפיקציה. חוסר חפיפה בין ריחות שונים בפעילות של הנוירונים מאפשר 
למוח לזהות בדיוק רב ובקלות גם ריחות שמאוד דומים זה לזה. רק באמצעות הידיעה איזו תת קבוצה פעילה ניתן לדעת 
במדויק את הריח המתאים. וזו בדיוק המטרה שלנו ברשתות נוירונים עמוקות! לבנות מודל שיאפשר ביצוע של 
קלסיפיקציה מדויקת. 

איור 26 מציג באופן פשטני יתרון של ץ 811 ־ 1 ^ק 8 . 



יתרון של ׳ 315115 ק 8 . לרשת מוצגת 2 דוגמאות קלט שונות(איור שמאלי ואיור ימני). עבור כל קלט רק תת קבוצה 
ספציפית מתוך סך כל הנוירונים פעילה כתגובה לקלט ספציפי. ניתן לבצע קלסיפיקציה מדויקת רק מלדעת איזו תת קבוצה 
ספציפית פעילה. 


בשנת 2012 , הינטון ושות' גילו טכניקה חדשה שמצליחה להפחית עוד יותר את בעיית התאמת יתר ולשפר את יכולת 
ההכללה של הרשת. לטכניקה זו קוראים זטסקס־נס. 
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5.3 0111 ק 0 ־ 1 ( 1 

[ 3,9,18,23,36,38,41,43 ] 

5.3.1 תיאור הטכניקה 

בשנת 2012 הינטון ושות' [ 18,38 ] הציעו טכניקה חדשה ומעניינית ששמה 1 ג 01 ק 0 י 01 . 

שלב האימון: בכל שלב במהלך האימון מוחקים באופן זמני כל נוירון מהשכבות הנסתרות בהסתברות מסוימת, ברוב 
המקרים והרשתות הסתברות של 0.5 קרובה לאופטימלית. ערך זה נמצא אופטימלי באמצעות ניסוי וטעייה של ערכים 
שונים. כמו כן ניתן למחוק חלק מיחידות הקלט. מריצים ק 0 ־ 1 ק±> £21 ומעדכנים את הפרמטרים (משקולות) ברשת. 
לאחר מכן, מחזירים את הנוירונים שהוסרו וחוזרים שוב על התהליך, כלומר מוחקים באופן זמני כל נוירון בהסתברות 
0.5 (או הסתברות אחרת) מריצים ק 0 ־ 1 ק±> £21 ומעדכנים את הפרמטרים ברשת וכן הלאה. 

איור 27 משווה בין ארכיטקטורה סטנדרטית אל מול השפעת השיטה זטסקס־נס על ארכיטקטורת הרשת. אם ברשת יש 
14 נוירונים בשכבות החבויות, הרי שבמהלך ה !טסקס־נס עם הסתברות השמטה רנדומלי של 0.5 לכל נוירון בשכבה 
החבויה, אנו למעשה דוגמים כל פעם ארכיטקטורה רנדומלית מ 14 * 2 ארכיטקטורות אפשריות. ישנן סך הכול 14 * 2 
אפשרויות לארכיטקטורות שונות. 

שלב המבחן: משתמשים בכל הנוירונים ובכל המשקולות של הרשת אחרי שמחלקים ב 2 את ערכי כל המשקולות. 
באופן כללי, בזמן המבחן, משתמשים בכל הנוירונים והמשקולות אחרי שמכפילים את ערכי כל המשקולות בהסתברות, 
שהנוירון נשאר ברשת. כמתואר באיור 28 . כאשר ההסתברות להישארות היא 0.5 מכפילים ב 0.5 (מחלקים ב 2 ). 
הליך זה גורם לכך שהרשת בזמן המבחן מחשבת בדיוק את הממוצע הגיאומטרי של החיזויים מכל ה 14 * 2 מודלים. 

׳ \ 0 א 1 ס' 1 ׳ס££\״ 8/11 סא^ £11 '\£> 81 ידס 8 ,¥> 81 עפמ 12 מ> 1 ,אס־דא!!! ,\ 7 \\רד 8 \ 7 \ 1 מ 8 



: 111 ^ 141 . 8 ־ 01 ^, 18 1111111011 2 4111 * 1 1101 $11 ־ 110111 1 >־[ 1 < 1 > 111 { 81 \ : 1/011 . 101 ) 40 \ 01 א 01 ־ 0111 ^ 111 סקסז 0 : 1 0 ־ £111 ר*! 
. 1011 1,110 מס 11 ־ 01 ^ 1101 1110 1,0 0111 ק 0 ־ 11 ) 111£ ׳{ 1 קק 8 ׳{ 11 1 > 0111100 ־ 1 ק 1101 4 ) 1,11111110 11 - )ס 10 ^ 7111 0X811 

.!ססקקס־ז!) מסס!! 0 ^ 118 1111118 088011 ־ 01 
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איור 27 . השפעה של 021 ק 0 ־ 01 על הרשת. מוחקים חלק רנדומלי מהנוירונים מבצעים 2 ס 2£211 קס־ 1 ק:> 8201 מעדכנים 
פרמטרים, מחזירים את הנוירונים וחוזרים שוב על ההליך. 

:)טסקסזם .( 2014 ) . 8 , 0 ־ס 112 ) 8212£1121 :£> ,. 1 ,■ £0£1 :> 82181 ,.^ , 7 :>[ 8 ׳\ 6211£ ) 1 ,.£ . 0 , 312102 ,.א , 02 ־ 02812 ־ 86 ) 
1/11£ ד £01 , 7 470071/110 '/ס / 010 ) 701 . 111111111 ־ 0101 0111 ־ 11 £8 ז 00 \ 201 31 ־ 20111 1 ח 000 ־ 1 רן ס! ץ 02 \ 1£ ק 8121 2 

(. 1929-1958 ,( 1 ) 75 


' 1 ס 0 ק 10 !ס 



1^1§111'0 2: 1/61^1: 14 33118 10 1 ) 00336016 18 1 ) 311 £ 11117 ( 31 ( 01 ־ £1 ¥1111 \ £168631 18 11131 111116 313135 ־ 11 ; 3,1 ; 111 ען 
13 1116 36X1 131 ) 33 68631 ־ 1 ק 8 ^ 3 ^ 31 18 3311 1116 , 11316 1681 741 : 111 §!,מ 1118 § 61 ^ 1 ¥1111 \ ־ 61 ץ 
1116 \6 1116 38 83316 18 11136 1681 31 31 ק 031 16 ^ י ל ■* 1 ^ 11 1 ) 116 ק 313111 6 ־ 31 1118 § 61 /י X^6016(1 031£31 
31 1116 מ 11 313135 ־ . 


איור 28 . זטסקנתס. במהלך האימון מוחקים באופן זמני חלק מהנוירונים מבצעים 2 ס 211 § 2 וןס־ 1 ק >[ 820 מעדכנים 
פרמטרים, מחזירים את הנוירונים וחוזרים שוב על ההליך. בשלב המבחן משתמשים בכל הנוירונים אחרי שמכפילים כל 
משקולת בק(הסתברות להישאר ברשת). 

.( 2014 ) . 17 ,׳\ 1120 } 821217121 ,. 1 ,■ £0£1 :> 82181 ר .\ ,׳(:![ 6211£08 ) 1 ,.£ . 0 , 312102 ,.א . 02 ־ 02812 ־ 80 ) 

^ 7,00171/11 0/4700/0710 / 7011010 .בו ח 11111 ־ 1 ־ 0 0 ס 6021 11010/0148 21 זט 2£ 1 ו £1 י\£־ורן ס) ץ 02 ע 1£ ק 8121 2 : 021 ק 0 ־ 01 

(. 1929-1958 ,( 1 ) 75 . 0/1 ־ 01 ^ 77 


!טסקס־נס, מסייע בהפחתת התאמת היתר, על ידי מניעת 11103 ) 1 ק 1 ) 1 )ט- 0 כ) ("התרגלות") בין נוירונים בזמן האימון, 
עניין שיוסבר בסעיף המסביר את הסיבות ליעילות של !טסקס־נס. בנוסף, ניתן להתייחס ל !טסקס־נס כסוג של 
§ 13 §ט־נ ¥6 ט 101 ) 410 , כלומר בניית הרבה מודלים (רשתות), אימון הרשתות באופן נפרד על דוגמאות האימון, ולקיחת 
הממוצע של הרשתות בשלב המבחן. מכיוון ש !טסקס־נס גורם לכך שהרשת בזמן המבחן מחשבת בדיוק את הממוצע 
הגיאומטרי של החיזויים מכל ה 11 ^ 2 מודלים אפשריים. שיטה זו יעילה בהפחתת התאמת יתר ומשפרת את ביצועי 
הרשת. התיאוריה מאחורי היעילות של 031 ק 0 ־ 1 ס תדון ביותר פירוט, בהמשך, בפרק המיועד לכך. כעת נעבור 
להשוואה בין ביצועי רשתות עם ובלי!טסקסזס. 

5.3.2 0111 ק 0 ־ 1 ס 1 ו 01 ו 11 !¥\ ¥8 1 ו 01 ק 0 ־ 1 ( 1 

[ 15 , 

18,38 ] 


מטרה: השוואה בין ביצועי רשתות עם זטסקס־נס לרשתות ללא זטסקכמס. 
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הניסוי: השוואת ביצועי רשתות עם זטסקס־נס אל מול רשתות ללא 0111 ^ 0 ־ 01 על בסיס נתונים 19181 ^. כפי שכבר 
הוזכר 419184 \ן הוא בסיס נתונים מאוד שכיח בעבודות של למידת מכונה. זהו בסיס נתונים של ספרות שנכתבו בכתב 
יד. בסיס הנתונים מכיל 60,000 דוגמאות אימון ו 10,000 דוגמאות מבחן. היתרון הגדול שבהצגת תוצאות שבוצעו על 
" 184181181 הוא שאנו יכולים לא רק להציג תוצאות של המחקר הנוכחי של הינטון ושות' שבו אנו דנים אלא גם להשוות 
את התוצאות לאנליזות קודמות שביצענו בפרקים הקודמים. 

תוצאות: 

!טסקס־נס משפר את ביצועי הרשת ומפחית התאמת יתר באופן מאוד משמעותי. עפ״י המחקר של הינטון ושות', ללא 
!טסקס־נס הרשתות מניבות מעל ל 1.5% טעות על 184 ] 18 ^[ כאשר רשתות עם !טסקס־נס מתקרבות ל % 1 טעות. 
איור 29 מציג השוואה גרפית על בסיס נתונים, 184 א 4 \ 1 , זטסקס־נס 1 ט ¥11110 \ ¥8 זטסקסתס. ציר ץ מייצג את אחוז 
הטעות, ציר \ מייצג את התקדמות הליך עדכון המשקולות ב קס- 1 ק;> 01 ט 8 . הגרפים העליונים מייצגים רשתות ללא 
1 ט 0 ק 0 <[ והגרפים התחתונים מייצגים רשתות עם זטסקס־נס. על כן הינטון ושות' מסיקים ש זטסקס־נס יעיל בהפחתת 
בעיית התאמת היתר. 



,*. 6 ־ 61111661,111 ־ 11 ; 6111 ־ 311461 > ־ £01 ־ 1-01 ־ 61 , 4081 : 4 '>־ז 11 ״! 4 
- 1161 4116 . 111 ( 16 ^ 0 ־ 611 11110111 '** 1 > 111 ? 4131 * 1 

63011 8 ־ 01 ?< 13 3011 ) 11161 4 ס! 2 113.166 118 ־ 601 ** 
. 1111118 2048 60 1024 61111 * 1 


איור 29 . השוואה ויזואלית בין רשתות עם 0111 ק 010 לרשתות בלי 0111 ק 0 ז( 1 על ¥113184 

.( 2014 ) . 13 , 0¥ מ 82121611111111 £> ,. 1 ז £¥61 : 811181 ,. 4 ,ץ: 2116¥81 ד 131 ,.£ . 0 , 131111011 ,.א , 1¥2812¥2 ז 8 ) 
'/ 0 / 7 ) 11 ־ 1 ) 301 .§מ 0¥6131111 310111 8 ז ¥011 \ 61 ח 111611121 וז 6 י\ 6 ־ולן 10 ץ ¥2 \ 16 ל] 1111 ( 2 : 0111 ק 010 

(. 1929-1958 ,( 1 ) 15 ר ן €1 יו 65€0 ^ 1 ^ 1 ז 711 ו 1£0 
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איור 30 מציג השוואה מפורטת בין סוגי רשתות עם טכניקות שונות והביצועים שלהן על 414181 \ן. 


187 א 1 ג 6.1.1 


100(110(1 

) 1 ״ס 

0 י 71 ' 1 

6 ־ 111 ) 60 ) 0111 ־ 1X1 

־ 01 ־ 1 ־ £1 

% 

81311(1318111131 ) 61 ^ 31 ־ 6111 ^[ 61 ־ x1 61 31., 2003) 

1/0§181;10 

8 ; 11111 ן 800 , 8 ־ 61 ^ 13 2 

1.60 

60161 ^ 1 0311881311 1 ׳^ 8¥ 

4 א 

4 א 

1.40 

אא ) 011 ק 0 ־ 1 ( 4 

1^0^181; 10 

8 } 11111 1024 , 8 ־ 12761 3 

1.35 

אא ) 011 ק 0 ־ 1 ( 4 

1161)11 

3 13761:8, 1024 111111;8 

1.25 

; 31111 ־ 1 ; 001181 1101:111 ־^ 1113 ־ 4 ; 0111 ק 0 !ס 

1161)11 

8 ; 111111 1024 י 8 ז 6 ץ 13 3 

1.06 

12 ^^ + אא 021 ק 0 זס X-^10^'^^1 001151(21111; 

£61)0 

3 127618, 2048 11111(8 

1.04 

; 121111 ) 00118 1-1101-111 נ 8 מ 1 ־ 4 אא ; 0111 ק 0 ז 0 

1161.0 

2 127618, 4096 11111(8 

1.01 

, 31111 ־ 1 ( 601181 111 ־ 1101 ־£נ 1113 - 4 ; 11 ן 0 ק 0 ־ 01 

£600 

1111118 8192 , 8 ־ 13761 2 

0.95 

? 61101 ) 0008 ) 21111 ' 1 ) 00115 111 ע 10 ^- 112X ^ ־ 4 אא ) 011 ק 0 ־ 01 

( 2013 ,. 21 ) 6 

^3 !׳ X0111 

2 127615 ) , 8 ־ x 240) 
11111(8 

0.94 

( 2006 ,? 81110 ) 1 ) 11 ) 82121 2118 141111011 ) § 1111111 ) 6116 - 4 א 08 

1)0§15(10 

500-500-2000 

1.18 

( 2009 , 011 ) 14111 2118 ?' 81110 ) 821218111 ) ז) 1111111 ) 8116 + 1 ג 08 

1)0§15(10 

500-500-2000 

0.96 

§ 211111 ) 8116 ) 011 ק 0 ) 8 ־ 4 א 08 

1)0§18(10 

500-500-2000 

0.92 

§ 11111 ג 1 ) 6116 ) 011 ק 0 ע 8 ־ 4 4 ג 8 ם 

1)0§18(10 

500-500-2000 

0.79 


X&1 .ז 18 א 1 ג 011 11108618 118616111 ) 01 11 ס 18 ינ 3 ק 1 מס 0 : 2 16 נ 

איור 30 . השוואה בין ביצועי רשתות שונות עם 0111 ק 0 ז 0 לרשתות בלי 1 ג 01 ק 0 זם על 

812014 ) .א ,׳ 8212181111811101 ; 4 > . 1 , 61 ז\ 6 ;>[ $215 ,. 4 , , 7 ; 51 ? 12116 ־ £1 ,.£ . 0 , 81111011 [ ..א , 2 ׳\ 2 ) 25 ? 1 ־ ). 
06 (<// 7 ) 0/4/6 01117101 [ . 0111111111 )() 110111 ¥01118 \ 61 ת 062121 1 מ 6 ׳\ 16 ק 10 ץ 2 ׳\\ 16 ק 1 מ 81 2 : 1 ט 0 ק 0 ז 

£6(71929-1958 ,( 1 ) 15 § 0 ) 71 ן . 


עפ״י הינטון ושות' רשת סטנדרטית ללא 1 ט 0 ק 0 ־!ס ועם פונקציית אקטיבציה סיגמואידית ( 18110 § 1.0 ) מניבה 1.6% 
טעות. רשת עם )ט 0 ק 0 ־ 1 ס ופונקציית אקטיבציה סיגמואידית מניבה 1.35% טעות. רשת עם 1 ט 0 ק 0 ־ 01 ו ־ 11161 ) £60 
מניבה 0.95% טעות. בעבודה הזו של הינטון ושות' חסרה היעילות של רשת עם ־ 1160111101 ללא )טסקס־נס. אך ניתן 
לחזור למחקר של ( 2011 ) 10 §ט £0 & , 0(:, £01x168 ־ 0101 שם מובא ש ־ 8.0011661 ללא 1 ג 01 ק 10 ס מניבה 1.43% 
טעות. רשת שעברה §מ 1 מ 111 ־ 1 )- 6 ־ 1 ק 1 > 086 ־ 61 ק 1111811 ביחד עם )טסקס־נס מניבה 0.79% טעות. רשת שעברה 
§ £111111 ־נ)- 6 ־ 1 ק 1 ) ¥186 ־ 61 קט 8 ט 11 ללא )טסקס־נס מניבה 0.96% טעות. לסיכום, בברור נראה ש 0111 ק 0 ־!ס משפרת 
את ביצועי הרשת ומפחיתה משמעותית את התאמת היתר. 0111 ק 0 זס משפרת את ביצועי הרשת גם בשילוב עם 
־ £00111101 וגם בשילוב עם ^ 11 ! 111 ט־ 0-11 ־ 1 ק 1$641 \־ 61 קו $1 ת 11 . כאשר על פי מאמר זה 0111 ק 0 ־ 01 בשילוב עם 
§ח 1 ח 81 ־ 1 )- 0 ־ 1 ק 1 > 180 '\־ 01 ק 811 ח 1 _ 1 עדיף על השילוב של 0111 ק 0 ־ 01 עם ־ £00111101 . 

בנוסף, הינטון ושות' מביאים במאמרם השוואה בין רשתות עם 1 ט 0 ק 0 ־ 1 ס ו 1 טסקס־נ 0 ) ¥1114011 ^ על בסיסי נתונים 
שונים: 

• (]א[ 8¥14 ) 8 ־נ 166 ב 1 טט 110086 ׳\\ 16 \ 661 ־ 811 - אלו תמונות מ 661 ־ 811 16 § 000 והמשימה היא לזהות את מספר 
הבתים. 


• 10 -£\ 01£2 ו £ 100 \ 01£2 - זיהוי אובייקטים המחולקים ל 10 ו 100 קטגוריות בהתאמה. 
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•ז 6 א 6 § 13 מ 1 - בסיס נתונים ענק המכיל מעל 15 מיליון תמונות המחולק ל 22,000 קטגוריות. נחזור לבסיס 
נתונים זה בהמשך. 

- בסיס נתונים לזיהוי קולי(ן 11101 ן 000£1 ־נ:> 31 סק 8 ) 

באופן גורף, 0111 ק 10 ס שיפר את ביצועי הרשת בפתרון המשימות בכל בסיסי הנתונים לעיל, והפחית את בעיית 
התאמת יתר. 

5.3.3 מדוע 0111 ק 0 ־!ס מפחית התאמת יתר ברשתות עמוקות? 

[ 18,23,32,38 ] 

ישנן מספר הסברים מדוע 1 ט 0 ק 01-0 מפחית את בעיית התאמת יתר: 

1 . הפרספקטיבה הראשונה היא שבאופן הפשוט ביותר 0111 ק 1-0 ס הוא גם 161 ) 30 \ 1 . §ט 1 § 3 ־נ ¥0 ט 161 > 40 \ 1 

היא שיטה ידועה עשרות שנים לפני !טסקסעס, שבה מבצעים 6118 ^ 1 ^ 11 x 1111-6 016 x . אם רשת גדולה מובילה 
להתאמת יתר, ניתן להקטין את הרשת. אבל לבנות מספר רשתות שונות(ארכיטקטורה שונה, פונקציות אקטיבציה 
שונות, ערכי משקולות התחלתיים שונים וכוי) כך שכל רשת תייצר מודל באופן עצמאי על דוגמאות האימון. כלומר ב 
§ 111 §ט־ 1610¥61 ) 30 \ 1 בונים ומאמנים הרבה רשתות שונות על דוגמאות האימון. 

ב § 11£111 ־ 1610¥61 ) 30 \ 1 , בזמן המבחן נותנים כפלט את הממוצע המתקבל מכל הרשתות עבור דוגמת המבחן הספציפית. 
זו שיטה ותיקה שיכולה להפחית התאמת יתר. 

במובן מסוים 1 ט 0 ק 01-0 הוא גם §ט 1 § 11 ־ 1610¥61 ) 30 \ 1 . מכיוון שב 1 ט 0 ק 01-0 כל פעם אנו דוגמים רשת שונה מתוך 
13 * 2 רשתות(ארכיטקטורות) אפשריות( 13 מספר הנוירונים ברשת). ומאמנים כל רשת שדגמנו ומשנים את 
הפרמטרים בהתאם. בסוף, בשלב המבחן אנו מניבים חיזוי עם הרשת השלמה. חיזוי זה הוא בהתאם לממוצע שהיה 
מתקבל מכל ה 13 * 2 רשתות. כאשר משתמשים בכל הנוירונים והמשקולות, מוכפלים ב ק(ההסתברות של יחידה לא 
להישאר בכל שלב) מקבלים את הממוצע הגיאומטרי של הפלט שהיה מתקבל מכל הרשתות וזהו סוג של 161 ) 30 \ 1 
£1£111£ ־ 0¥61 . 

2 . מניעת 11111011 ק 111 ) 0-11 ס בין נוירונים. במהלך ה 1 ו 11111 ־ 1 ס§ 01 11££111011 ק 1-0 ק:>[ 6 ט£ הנגזרת המתקבלת מכל פרמטר 
אומרת לפרמטר כיצד עליו לשנות את ערכו כך שערך פונקציית המחיר תופחת, בהינתן הערך של כל שאר הפרמטרים. 
כלומר, פרמטר יכול להשתנות בהסתמך על טעות שמבצעים פרמטרים אחרים. הפרמטר לומד איך להשתנות כך 
שפונקציית המחיר תפחת בהינתן ערכי המשקולות האחרים שייתכן והם ערכים שגויים. זה גורם לקיבוע הטעות של 
פרמטרים אחרים ומוביל ל ט 13110 ק 111 ) 0-3 ס בין נוירונים. 1311011 ק 13 ) 0-3 ס מובילה להתאמת יתר כי ה -סס 
ט 13110 ק 3311 עובד רק בדוגמאות האימון והיא ללא יכולת הכללה לדוגמאות חדשות. ב 0111 ק 1-0 ס כל יחידה חייבת 
להיות עצמאית, ולא יכולה להסתמך על ערכי משקולות אחרים, כי כל פעם היחידה צריכה לתפקד בארכיטקטורה שונה 
עם משקולות שונות. 
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3 . יצירת ץ 811 ־נ 8 ק 8 . מעניין לגלות ש ל זססקכמס יש השפעה על ץ $11 ־ 81 ק 8 למרות שהשיטה כלל לא מכוונת לכך. 
1 ג 01 ק 0 <[ גורם לפעילות דלילה של הנוירונים בשכבות החבויות. כבר הזכרנו ש ל §ס 01 סס 80 ת 8 ק 8 יש תפקיד מפתח 
ביכולת של המוח הביולוגי, לבצע קלסיפיקציות מדויקות. מסתבר שבלי כוונה ליצור ץ 811 ־נ 8 ק 8 , זטסקסעס גורם 
למודל דליל. 

איור 31 מציג את תוצאות התצפית של הינטון ושות' לגבי ההשפעה של זטסקס־נס על ץ 811 ־נ 8 ק 8 . בסיס הנתונים שעליו 
הרשת התאמנה הוא 10181 ^ 1 . הינטון ושות' בחנו את הפעילות של יחידות הנוירונים לאחר סיום אימון הרשתות. 
והשוו בין הפעילות של יחידות הנוירונים ברשתות שאומנו עם זטסקס־נס אל מול רשתות שאומנו ללא זטסקס־נס. 


^ 511 ־ 31 ק 8 011 £8601 7.2 



. 0.5 = ק 10 ר% !ססקסזס ( 0 ) 1 ססקסז 10 סס ¥110 \ ( 8 ) 


£1501 בם 8 ז§ 01810 1116 :;מ©!! . 0100615 0111 ( 1 זג 6 0860 6 ־ז 6 ־% 8 ס. 1161 .ץ 511 ז 8 ק 5 סס 1 ססקסז 0 ?ס £0601 : 8 6 ־ 
01 01600 8010811005 8081 01 801081100 10680 8 6 ז\ 08 00118 10051 11101 8 ׳%ס x101 2.0. 1116 
111810^101 801100 * 0 6 § 181 8 , ז ( 1 ־ 31681 ) . 0 ־ 261 010 ־ 0 ־{ 8 ׳ 8% 10006 £6 ס 0 8 5 ׳%ס 80 8010811005 01 810 ־ 
00115 118110081 1081 5 ׳%ס 80 811005 ־ 8010 10680 01 1 ס 8 ־ 1 §ס 0181 706 : 01 ^ 111 . 801081100 0 § 01 6 ־ 
00118 08\*6 8 501811618010811005 01 ס 181 §ס 0181 1116 . 0.7 80001 01 801081100 10680 10680 ־ 
50801081100 0 § 01 6 ׳\ 08 00115 ' 16% ץ־ ¥61 . 2610 81 6811 ק ק־ 5081 8 5 ־%ס . 


איור 31 . השפעה של ; 1 ט 0 ק 0 < 1 על ץ 811 ז 3 ק 5 

.( 2014 ) , 11110¥ ): 11111 >[ 8313 81 ,. 1 ,־ £1 ׳ \£:>[ 18 ג 81 ,ץ^ 211£¥8 ת^ ,.£ . 0 , £11111011 ,.א , 1¥3813¥3 ז 8 ) 

6 ח €10111 ^/ 110 ) 1 זץ £11:1111£. 1011 ־ 0¥£1 0111 ־ £1 1:8 ז ¥0 \ £1 ת 31 זט£מ 1 ח£¥£־ 1 ק 10 ץ ¥3 \ 1£ ק 1 ז 811 3 :;!טסקס־זם 

(. 1958 ־ 1929 ,( 1 ) 11-011,15 ) #686 §ח 11 רז €1 ^ 1 


בעוד שהממוצע הכללי של פעילות הנוירונים הוא 2.0 ללא זססקסתס הממוצע הכללי הוא 0.7 כשמוסיפים !ססקס־נס. 
בנוסף פיזור הפעילות שונה לחלוטין. עם 001 ק 01-0 רוב הנוירונים היו מושתקים, פעילות 0 , עבור רוב דוגמאות 
האימון. בעוד שללא זססקסעס לרוב הנוירונים פעילות גבוהה עבור רוב דוגמאות האימון. 
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11311611£6.6 ב) £600£11111011 ¥181131 80316 6 §* 31 ^ 1 61 ^ 6 § 11113 

[ 16.17.25.26.38 ] 

6.1 61 \[ 6 § 13 מ 1 

[ 17.24.38 ] 

בסיס נתונים זה מכיל 15 מיליון תמונות ברזולוציה גבוהה, כאשר כולן מתויגות ( 1 ) 1.36016 ). התמונות שייכות ל 
20,000 קטגוריות. משנת 2010 כל שנה, התבצעה תחרות בשם 11 ס 11111 §ס ¥1811311160 80316 £6 ־ 61461031 § 3 בו 11 
6 § 011311611 , שבו קבוצות המחקר מתחרות עם הרשתות שלהן על בסיס נתונים זה. מכיוון שיש 20,000 קטגוריות 
אחוז הטעות מחולק ל 2 . 1 -ק 70 : אחוז הדוגמאות שבהן הרשת לא בחרה בקלסיפיקציה הנכונה, כבחירה הראשונה של 
הרשת. 5 -ק 70 : אחוז הדוגמאות שהרשת לא בחרה בקלסיפיקציה הנכונה, באף אחת מתוך חמשת הקלסיפיקציות עם 
ההסתברות הגבוהה ביותר שהרשת נתנה. 

יש 4 רשתות מרכזיות לזיהוי אובייקטים, שפותחו משנת 2012 לאחר גילוי הטכניקות להפחתת התאמת יתר שנדונו 
בעבודה זו. 

1 . : 406x1861 , הינטון ושות', בשנת 2012 

2 . 1461 ( ¥00 ) קג 01 ת 0 ץ־ 611 בו 0601 ¥181131 , קבוצת מחקר מאוקספורד, בשנת 2014 

3 . 161461 § 000 , חברת גוגל, בשנת 2014 

4 . 11681461 , מיקרוסופט, בשנת 2015 

יש לציין שכל הרשתות הללו הן מסוג 461 סי 0011 היעילות שלהן נובעות מארכיטקטורה מתאימה לזיהוי אובייקטים 
תוך כדי הפחתה משמעותית במספר הפרמטרים החופשיים המתבצעת באמצעות §מד 618631 § ¥61 \י. משתמשים באותן 
משקולות עבור חלקים שונים של התמונה, מוצג באיור 32 ואיור 33 . 
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311 5 ח 0 ה 601 חרו 00 601 ־ 1 6 ו] 7 
.:ור 1 § 61 /^\ 6 וח 53 6 ו{ 1 6 /\ 3 ו! 



איור 32 . § 11 ך 81121 111 § ¥61 \ 

/ 0 ץ) 51 ־ £1 /\ 1 חט ץ 6 9 חו' ח? £0 . 1 1/1£ ו 1001 /\ 1 ־ 01 / 5 > 1 -ו 6/0 \} 1£ \ 011 י/ג 161 \ 1 
(ח 1:0 חו 1 ־ 1 ו\£יו}) £0 ב)) 0/11:0 ־ 01 ־ 7 


הרשת העמוקה הראשונה שהצליחה להניב ביצועים פרקטיים בזיהוי אובייקטים היא €01401 מסוגזס^גמסס שפותחה 
בשנת 1998 . ללא £ח 1 ח 31 ־ 0-11 ־ 1 ק 1 ) 180 '\־ 01 קג 81 ח 11 ,■ 8.0011661 או !טסקס־נס. 


5 ־ 161 ^ 6 ^ 1 



איור 33 . ארכיטקטורה של 0618161 
( 3.01 חוח' 1601 ק 0££ ) 


לא ניתן במסגרת עבודה זו להיכנס לפרטים הטכניים של 1901:8 ^ €011 . אך בכל זאת ארצה להביא את הארכיטקטורה 
של הרשת באופן כללי. איור 33 מציג את הארכיטקטורה הכללית של €01901 . באופן כללי, הסימון מתחת לחצים: 
5x5 מסמל פילטר בגודל של 5x5 ש "צועד או מוזז " על גבי הפיקסלים. גודל הצעד או התזוזה הוא בהתאם לגודל 
שקובעים כ 10 ) 1 ־ $11 (מסומן באות 8 ). גודל 5x5 משמעותו רק 25 משקולות שונות שמוזזות על גבי התמונה(פילטר). 
לחלקים שונים של התמונה אותם המשקולות(§ 111 ־ 11181131 § ¥01 \). ההיגיון הוא שאם לדוגמא אני רוצה לזהות קצוות 
בתמונה ( 68 § 1 ) 6 ) אז אותן המשקולות שמזהות קצוות בחלק אחד של התמונה יהיו טובות לזיהוי קצוות בחלק אחר של 


התמונה. 
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עם התפתחות הטכניקות להפחתת התאמת יתר, שתוארו ונותחו בעבודה זו, קבוצות מחקר החלו לפתח רשתות יעילות 
יותר ויותר בזיהוי אובייקטים המתבססות על הטכניקות שתוארו בספר זה. בסיס הנתונים שעליו קבוצות המחקר 
השונות עבדו ובדקו את ביצועי הרשת, היה זהה. הקבוצות כולן עבדו ובדקו את הרשתות שלהם על 

6.2 61 \[\ 416 

[ 38 ] 

רשת זו דומה ל 61461 ? שפותחה ב 416x1461.1998 הניבה תוצאות מרשימות מאוד על 01401 § 8 מ 11 כמפורט באיור 
34 . 


0¥ א 1 כד 1 ת 111 > 1 \^ 581 סא* ,ק 12116¥810 א£ ,אסידאזט , ¥8 * , ד 8 * 5111¥ 



. 161 > 10 מ ־ 0X11 ׳< 6 1 > 11010 > 16 ק 85 186618 1068610 ק 111081 4 166 116 ־ 11 08565 1681 6 0: 501116 11111156X61 ־ 15111 ? 
186615 166 10 1 ) 88815116 '\ 06861111 ־ 1 ק 166 10 011101181 ק 10 ק 15 6818 12011181 ־ 601 166 01 1611516 66 ־ 1 

. 1116 ־ 11 1 ) 01111 ז 5 1108168 ) 111 ) 1111 י 1 . 161 ) 1110 166 ז { 6 


1\10(161 

1 -<ן 0 ^ 

5 -ק 10 

( 2010 .. 81 61 661 ) 11115 ) 30 ) 8156 ק 3 

47.1 

28.2 

81 ?8 88110662 ) 5 ־ ¥60101 15601 ? + ז X1(1 06X10111161, 2011) 

45.7 

25.7 

( 2012 ,. 81 61 ץ? 8 ־(\ 266 נ 1 > 1 ) 111 סקס־ז!) 6 - 1461 ־׳ 30111 ) 

37.5 

17.0 

. 561 1651 3-2010 ) 1123¥0 166 מס 065110.5 : 5 1181116 


061 ס 1 \ 

X01 -<ן 

('■•31) 

X05 -<ן 

('31) 

5 -ק 10 

( 1681 ) 

8181151105 00101 1 >ם 8 ז? 51 061156 01 15661 ¥6010X5 ? מס 1 \ 8¥ 

- 

- 

27.3 

^? 031 3 מ 8 ־ 0137 . 00 ? ,?? 31 01 ¥5 ? 61 ־\ 0 010185516615 5 ־\ 4 

- 

- 

26.2 

( 2012 ,. 81 . 61 ־\) 51 ׳\ 11266 > 1 ) 0111 ק 110 ) + 1461 ׳\ם 00 

40.7 

18.2 

- 

( 2012 ,. 81 61 •\) 81 ־\ 11266 > 1 ) 111 סקס 01 -ן- 14018 ז \מ 00 5 01 5 ־\ 4 

38.1 

16.4 

16.4 


X8616 6: 116511115 861 1811011/1651 ) 811 ^ 3¥00-2012 ? 1 166 מס . 


^16x1^61; איור 61.34 א 6 § 3 ןמ 1 מס 

($1 .( 2014 ) , 1100¥ >: $3131411111 & ,. 1 ,־ 6¥61 :> 181 ג 7,81 >[ 12116¥8 ־ 10 ,.£ . 0 , 1310100 ,.א , 1¥381:3¥3 ־ 
ח 2£171 >^ 1 /ס 1€11 ץז 011 [ .§מ 1 ;ז 11 ' 1 ־ 61 ׳\ 0 001 ־ 31 148 ־ ¥01 \ 061 31 ־ 0601 601 ׳\ 6 ־ 1 ק 10 ץ ¥3 \ 16 ק 1 מ 81 3 : 0111 ק 1-0 ס € 

1^6€1 1958 ־ 1929 ,( 1 ) 75 , 1 {€יז 1 ) 686 .# £ח 711 ז .) 


סך הכול ב 416x1461 יש 8 שכבות חבויות והגיעו לב 16.4% טעות. שיפור משמעותי משנה קודמת שבה הרשת 
הטובה ביותר הגיעה ל 26% טעות. 

איור 35 מציג את הארכיטקטורה של 416x1461 ,. מבחינה מבנית 416x1461 דומה ל 6X61 ?. החידוש הוא 
שב 4.16x1461 יש יותר שכבות חבויות. השתמשו טטסקכמס, ובפונקציית האקטיבציה ־ 1166111161 . טכניקות שנדונו 
בעבודה זו. בנוסף 416x1461 אומנה על מעבד 11 ? 0 שהינו יעיל יותר מ ??ס להרצת 
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איור 35 . ארכיטקטורה של 61 ^ 16x1 ^ 
( 9.01 חוח-ו 1160 ] 06£ ) 


¥00 >[61 & 000§16>)61 6.3 

[17] 


בשנת 2014 חוקרים הצליחו לשפר את הביצועים של; 61 ^ 16x1 ^. קבוצת חוקרים מאוקספורד פיתחה את הרשת 
¥00 עם 19 שכבות חבויות. הרשת הגיעה ל 7.32% טעות על ז 6 ז< 6 § 121 מ 1 . באותה שנה 16 § 000 פיתחה את 
: 161 < 16 § 000 עם 22 שכבות חבויות שהגיעה ל 6.67% טעות על ז 6 ז< 121£6 מ 1 . כל הרשתות הן כמובן 161 <׳\ן 1 ס 0 . 
רשת ¥00 מאופיינת ע״י כך שיש חזרה 


1*68^61 6.4 

[17] 

בשנת 2015 הגיעה פריצת דרך נוספת משמעותית ב 6 §ן 011211161 ן 1 ס 11111 §ס 60 .מ ¥180211 802116 6 §־ש 610 ]< 121£6 מ 1 
חוקרים ממיקרוסופט הצליחו ליצור רשת מאוד עמוקה, עם 152 שכבות חבויות, תוך שמירה על מספר פרמטרים כולל 
נמוך. כך ניתן ליהנות מהיתרונות של עיבוד על פני שכבות רבות של יחידות לא לינאריות. כלומר, ליצור מודל מאוד 
אקספרסיבי, תוך שמירה על מספר פרמטרים כולל נמוך ומניעת התאמת יתר. הטריק שלהם היה שהקישוריות בין 
הנוירונים לא יהיה רק בין שכבות סמוכות כמו הארכיטקטורות הסטנדרטיות אלא שחלק מהנוירונים במקום להתחבר 
לשכבה הסמוכה מדלגים על שכבות ומתחברים לנוירונים בשכבות עמוקות יותר. הם עיצבו ארכיטקטורה מאוד עמוקה 
ושמרו על מורכבות יחסית נמוכה. הרשת שלהם הגיעה ל 4.94% טעות, תוך שימוש בטכניקות לפתרון בעיית 
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התאמת יתר שנדונו בעבודה זו( 0111 ק 0 ־!ס & ־! 116611716 ). מממוצע הטעות( 5 -ק 10 ) של אנשים על 61 \[©§ 13 ז 11 
הוא 5.1% . 

איור 36 מציג את תוצאות 11681461 מול ¥00 ו 161461 § 000 . רשת ¥00 מניבה 7.32 אחוז טעות, 061461 § 000 
מניבה 6.66 אחוז טעות. 11681461 מניבה 4.94 אחוז טעות על אותו בסיס נתונים. 



1 ) 110 ) 6 וח 

( 1681 ) 5 ־ק 0 ) 

ת 1 

14 105¥00 

8?? [12] 

8.06 

[ 29 ] 00 ׳\ 

7.32 

00087646( [33] 

6.66 

) 08 ק 

( 5 ׳\ 00 [29] (31X4 ׳\ 

6.8 

175^1*0 14 

8 ־ 0111 

4.94 


.) 86 ) 168 2012 61 א 6 ״ 3 ו 111 66 ) ■! 681111810 •! 161 ) 7.1011111-1110 73616 


000£16£68 מול ¥00 ו 61 א X61 איור 36 . תוצאות 

(£16, £., 2110 מ §, X., 11611, 8., & 8011, 1. (2015). 1)61¥10§ (1667601111678 1010 ק : 

807 8 ^ 1112 ) £10066 מ 1 . 01088111001100 6061 § 1010 מס 07700006 ! 67 ק 16¥61 ־ 11071100 § 08810 ק 
0/1126 !£££ 112X6211(111012(11 0012/6161266 012 00111^11161 181012 ע ) 


איור 37 מציג את הארכיטקטורה הייחודית של 11681461 . ניתן לראות שמשקולות משכבות קודמות מדלגות על שכבות 
ומתחברות לשכבות עמוקות יותר. בנוסף, הם שמרו על מורכבות רשת קטנה והשתמשו בעקביות בפילטר 3x3 . 
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איור 37 . ארכיטקטורה של 68X61 .£ 
( 1£.01 מ 1 מ 1607 ק 66 ( 1 ) 
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איור 38 מציג דוגמא לקלסיפיקציות של 1168140 על: 61461 § 13 מ 1 



6X1 (01111(1 

1: (011(11(( 


2: £3163('6 111x1( 

) 1161 ?) /*!ס): 3 
) 01:1 ־ 6 ־ 31161 ־ 4:11 

זז £0-113 : 5 



60056 ( 11 * 6 : 1 

־ 11001 <)חו( 1 ו 51 : 2 
ח 66 ־ 50 *> 10 )מ 1 *ו : 3 
א 0 נ 11 ו 3 וז־ו : 4 
1 םק : 5 



1 : 60156 0311 

2: 11111116115 

3: 0x031( 

4: 5116(0661 
5: >131( (13 01( 



ל 1 > 00 /״ - 16 < 1 -) 0-0 16 < 
60111 ) 101 ) 5 
110£05 ) 31 ־ 001 


10016 < 06116 * 17 
0£ (א) 5666 £7161156 ( 017 


2: 1761 £0 )( 1 ו x 1(103 

3: 101111661 

) 101 ) 5 71£ ו) 1 ) 13 * 1 : 4 
116 ) 1 ) 3 ( 311 ) 0115 : 5 


־ 0111 ׳<ר 1 1 ) 0101881110 ץ 8110008811111 08 ״ 13 חנ 1011 ) 13 ) ¥311 310 ןוו 11 ס\£ . 5 0 ־ 111 " ו 7 ? 
- 13 5 ־ק 0 ) 1110 1 ) 311 31 * 131 11111 * 1-11 ) 0110 ־ 1 " 1110 . 0 " 11113 03011 זס 7 ! . 1 ) 11101110 

. 1 ) 11810 0 ־ 31 1 ) 11101110 ־ 031 ץכ\ 1 ) 11010 ) 0 ־ 31 [ 018 ( 1 

איור 38 . דוגמאות לקלסיפיקציות של 61 ^ 68 .^ על 61 ^ 61 ^ 1111 


(116, 21133§, X., £63, 8., & 833, 1. (2015). 1310 ק 166 ) §מ 1 ׳\ 61 ס 

11313£6361 03 3306 ן 3 ־ 61101 ק 16¥61 ־ 1133133 § 38813 ק־ 831 : 8 ־ 66111161 ־ : 
61388111031103. 13 ?00066611*7^8 0/1116 1£££ 11116*7101101701 00*7/6061766 0*7 
00*71^11160 7 * 1810 ע ) 


מעניין לראות את המגמה המשתקפת מהסקירה שבוצעה בפרק זה של העבודה. להוספת עוד ועוד שכבות חבויות, יש 
חשיבות קריטית בשיפור הביצועים של רשתות עמוקות בבעיות מורכבות של אינטליגנציה מלאכותית, כדוגמת זיהוי 
תמונות. מהסקירה לעיל נובע שהוספת יותר ויותר שכבות חבויות קריטית לביצועים הולכים ומשתפרים של רשתות 
עמוקות לאורך השנים. : 416x1461 , שפותחה בשנת 2012 עם 8 שכבות חבויות, הניבה 16.4% טעות. לאחר מכן 
ב 2014 , ¥00 עם 19 שכבות חבויות, הניבה 7.32% טעות. ; 161461 § 000 מ 2014 , עם 22 שכבות חבויות, הניבה 
% 6.67 טעות, ו 1168140 מ 2015 עם 152 שכבות חבויות, הניבה % 4.94 טעות, ומתעלה על ביצוע אנושי ממוצע. 
לעומק הרשת יש חשובות קריטית בשיפור ד,י י על עי ע. 

בפרק הבא, אציע שיטה חדשה לפתרון בעיית התאמת יתר, המבוססת על מסקנות עבודה זו שמפורטות בתחילת הפרק 


הבא. 
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7 . הצעה לטכניקה חדשה לפתרון בעיית התאמת יתר ולעיצוב רשתות עמוקות מאוד 

מהסקירה שבוצעה בעבודה מסכמת זו עולות מספר מסקנות: 

1 . ככל שהרשת עמוקה יותר כך מחריפה בעיית התאמת יתר 

2 . שלושת הטכניקות העיקריות שמפחיתות התאמת יתר שסוקרו בעבודה זו 

( 0111 ק 0 ־ 01 & , 8 > 1 ־ 01 ׳\\ 1101 1:11 ־ 110111 ־ 101 ־ 00111 ־ 1 80 ־שק 8 קסס(] ,§ 11111111 ־ 0-11 ־ 1 ק 18001 /ח 0 ק 811 ח 11 ) 
גורמות למודל דליל (ץ 811 ־נטק 8 ) למרות ש §ט 1 מ 1 ט־נ 0-1 ־נק 1 ) ¥180 ־נ 0 קט 8 ן 111 ו 001 ^ 0 ־ 01 אינן מכוונות כלל ליצירת 
מודל דליל. 

3 . לעומק הרשת יש חשיבות קריטית בשיפור הביצועים כפי שמשתקף מהשיפור המתמשך בביצועים לאורך השנים מ 
: 10x1401 ^ בעלת 8 שכבות חבויות ועד ל £0818101 עם 152 שכבות חבויות. 

על כן יש צורך בטכניקה שמחד תאפשר עיצוב של רשתות עמוקות מאוד ומאידך תפחית את בעיית התאמת יתר 
שמתעוררת עם עלייה במספר השכבות והפרמטרים. 

7.1 מבוא קצר לטכניקה 

[ 40 , 27 , 19 , 16 , 14 , 8 , 2 ] 

הטכניקה המוצעת כאן מיישמת עקרונות נוירו-ביוכימיים חישוביים על מנת לאפשר יצירת מודל מאוד עמוק ודליל. 
אביא בקצרה עקרונות אלו בכדי להבין את הטכניקה. 

קידוד דליל והתאמתיתר. כפי שהסקנו בעבודה המסכמת, שלושת הטכניקות: 

1 ט 0 ק 0 ־ 01 & , 01108 ׳\\ 01 ח 111 ־ 110111 ־ 00111101 ־ 1 80 ־ 111 ק 8 ק 000 ,§ח 111111 ־ 0-11 ־ 1 ק 1 ) 180 /ח 0 ק 1111811 , גורמות לפעילות 
דלילה של הנוירונים בשכבות החבויות. קידוד דליל (§ט 01 סס 180 טק 8 ) הוא עקרון נוירו-ביוכימי המאפיין את פעילות 
הנוירונים במוח והמאפשר למוח לבצע אבחנות וסיווגים מדויקים מאוד . 

גיזום סינפטי וקידוד דליל במוה הביולוגי. במוח הביולוגי הליך הקרוי גיזום סינפטי (§מ 1 מט־נק 110 קטמץ 8 ) מעודד 
קידוד דליל וחיוני ללמידה. 

למידה לא מונחית וגיזום סינפטי במוה. מנגנון של למידה לא מונחית הביאנית( 1 ) 180 !רנ 0 קט 8 טט ט 1£1 כ 1 כ 1101 
§מ 1 מ־נט 10 ) קובע את החוזק הסינפטי ומקדים את הגיזום הסינפטי. סינפסות חזקות(בעקבות המנגנון ההביאני), 
נשארות וסינפסות חלשות נגזמות. למידה הביאנית היא הבסיס ללמידה לא מונחית(§ו 1111 ־ 110111 ) ¥186 ־נ 0 קט 8 ט 11 ) 
ברשתות נוירונים מלאכותיות. 
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גיזום משקולות. גיזום משקולות (§מ 1 מג 1 ־נק 111 § 61 ׳\ץ) , טכניקה המיושמת ברשתות נוירונים מלאכותיות בהשראת 
הגיזום הסינפטי. בטכניקה זו מוסרות חלק מהמשקולות במהלך ה ק 0 -נק£[נ> 1 > 8 . טכניקה זו יעילה במידה מסוימת אך לא 
מספיק טובה לפתרון התאמת יתר. הטכניקה הזו עד היום מתבצעת לאחר תחילת ה קס-נק;> 8301 . 

7.2 תיאור הטכניקה 

הטכניקה המוצעת כאן מיישמת גיזום של משקולות (§מ 1 מגדנק 111 § ¥61 \) באופן חדשני, לפב^ התחלת ה קס-נק;>[ 10 ^£ 
לשם עיצוב רשתות עמוקות מאוד ודלילות. שני מרכיבים חיוניים ביותר(עפ״י עבודה מסכמת זו) לבניית מודלים עם 
ביצועים משופרים במשימות עם מורכבות שהולכת וגדלה. 

תיאור הטכניקה: 

1 . התחל עם רשת עמוקה מאוד(מאות ואלפי שכבות חבויות) עם קישוריות מלאה. 

2 . בצע למידה בלתי מונחית מהירה. 

3 . הסר את המשקולות עם הערך המוחלט הנמוך ביותר. 

4 . בצע קס־נק±> 03 עם הרשת הגזומה. 

טכניקה זו נועדה להשפיע ישירות על דלילות המודל. בנוסף, טכניקה זו נועדה לאפשר עיצוב רשתות עמוקות מאוד 
בגלל הליך הגיזום והסרת המשקולות שמתבצע לפני התחלת ה ק 0 -נק±> 33 נ. 

הטכניקה עקבית עם הסדר שמתבצע במוח הביולוגי: למידה בלתי מונחית ולאחריה גיזום סינפטי. כמו כן הטכניקה 
עקבית עם הסדר המבני-דינמי שמתבטא במוח במהלך החיים. המוח מתחיל עם חיבוריות גבוהה מאוד ומאוחר יותר 
מתבצעת הסרה משמעותית של סינפסות בגיל ההתבגרות. זאת בכדי לשפר פונקציונליות של המוח. 



51 


8 . רשימת מקורות 

[1] .412180 262121 1 ) 22 , 611161621 , 16 קב 812 .( 2015 ) . 4 , 4101112 4 ) ,. 7 . 1412 ,. 7 , 06 ,. 8 , 2 ־ 01 ־ X116128 101 ־ 

8 0.7 . 11118 ) 00 86 ־נ 2 ק X1^ 07 71111 ק 76 ק X17:1503.00778. 

[2] 4 80 .ץ־ 111611101 60186 ־ 1 ק 2 18 ץ־ 111611101 86 ־ 21 ק x101761 28 ■ 108 ( 1 8616266 1 )־ ) 

2014. 111{ ץ־ 60186-2162101 ־ 1 ק-ץ־ 86-1262101 ־[ 2 ק 108/8 < 8/8016206-1 ׳\\ 0/26 [ 20.2 .\ 0 .׳\\¥\¥\//:ק 

[3] 82.1., 80 710 ^ 261 21 ־ 2621 ק 460 21111118 ־ 11 ־ 021101 ק 0 ־ 11 ) 6 ׳\ 11 ק 402 .( 2013 ) . 8 .ץ 6 ־ x78.12 71017011106 8 מין 
816117011171/071710(1017£700688017' 8^/8(67178 (3092 ־ 3084 .קק ). 

[4] 862810, ¥., 026112112282286 1118110 < 21 < 01 ־ 1 ק 21 ־ 2621 4 .( 2003 ) . 0 , 12 ^ 122 & ,.? , 4126621 ' ,. 8 , 216 ־ 
210061. ]0101101 0)/17100111176 160771171§ 768607017, 3(7611). 1137-1155. 

[5] 862810, ¥. (2009). 7621 00171176 [ 3 117 © 7671018 ) [ 017 7 01771010110718 . 41 ־ 101 68 ־ 0111160121 ־ 21 ק 166 ) 2128 ־ 
£ 60717117 §, 2(1), 1-127 

[6] 818110 ־ 12861 ־ 1 ק 8 . 2128 ־ 1621 122611126 1 ) 22 6008211:102 ־ 1 2 ־ 721161 .( 2006 ) . 141 . 0 ,ק . 

[7] 702134281111181011 ' 01 ץ 62811 /י 7111 ׳( 6 08616266 ־ 14621 212110221 ק 

[8] 7x06661, 8; ?02161, 174; 8x62161616 ? ;¥ ,־ X862, €011 (2011). "82166112218218 110 ק 22 ץ 
2206x1^128 §?2X86 600128 04 26146 102611". 4 6177017 . 69: 11601175 ־ . 

[9] 7)2111, 0. £., 82122111, 7. 14., 86 1312102, 0. £. (2013). 12^262 ק 066 028 \־ס X21 1161\\ ־ 101 8 > 1 ־ 01 ׳ 
7478 7 28128 111262 66111160 ־ X 22118 220 0x0^021. 12 2013 !£££ 117 ( 67170(1017011 0017/6761706 017 
/[ 00178 ( 108 , 8!766017 01170181§71011 £ 700688011 '(1777 .( 8613 ־ 8609 .קק . 

[10] 7)27660 .( 2001 ) . 7 . 7 , 466011 & ,.? , 22 ץ X611621 262X08616266 (401. 806). 72216x1086, ]414: 
6417 7x688. 

[11] 7)6 7281x0, 7. 14. (2006). 72202X2621218 04 2212X21 60212180 , 18 ק 60266 62816 : 21128 ק X116218, 

220 2 £7688 €£€ . 116211028 קק . 

[12] 7)628, !-•162 ק 66 ( 7 .( 2014 ) .ס , ¥2 4 > י X2128: 64616008 220 2 011701 10718 ) £01171010 . 116211028 קק 
7'7617018 117 81§71011 £700688117§, 7(3387 ־ 197 ,( 4 ־ . 



52 


[13] £101 ץ 11 ס 313310 > £116 .( 2009 ) .? , ¥1206111 & ,. 8 , 10 § 860 ,.¥ , 10 § 860 ,.¥ .? , 01 § 632022 ,.ס , 11211 ־ 
11 11 ) 1111 : 111011 ? 1111 10 .§ 21010 ־ 6-11 ־ 1 ק 1 ) 186 '\־ 61 ק 01180 01 611601 1116 1 ) 20 08 ־ 0111100101 ־ 21 ק 100 ) : 21111112 ־ 

0 , 011 (?!'? 11 (:? 00 0011/10101 1016111^6006 011(1 5101151105 (160 ־ 153 .קק ). 

[14] 0601111668 :( 5 ) 2 , 112 ) 0 ק־ 8060121 . 012011106 £011201200 ( 2007 ) 1310100 .£ ץ 6 ־ . 

[15] 0101108 ־ 1 ס׳\\ 61 ח 21 ־ 0601 ־ 60111161 ־ 861 ־ 21 ק 8 ק 066 .( 2011,1006 ) .¥ , 10 § 860 & ,.¥ , 168 )־ 801 ,.¥ , 01 ־ . 

10 £00066(110^5 0/1116 £0001660111 111161-00110001 £00/606006 00 /[ 011(101011016111§6006 00(1 
8101151105 (315-323 .קק ). 

[16] 136, £., 2620§, X., £60, 8., & 800 , 3. (2016). 066011100 § 600 ־ 1 6 § 1012 ־ 101 § 110 ד 1621 1021 ) 681 ־ 1 ק . 
10 £00066(1111^5 0/1116 1 £££ 000/606006 770 .קק) 011100 § £600 £ 011600 0061 0151011 11160 ק 00171 סס - 

778). 

[17] 136, £., 2620§, X., £60, 8., & 800, 3. (2015). 3 28861 ק־ 801 : 8 ־[ 6011116 ־ 1 1010 ק 066 § 30 \ 61 נ § 
600120-16¥61 1016000110001 1£££ 0/11-16 5 ^ 1111 ) £00066 10 . 01288111021100 6061 § 1012 00 012006 ־ 101 ־ 61 ק 
000/606006 1026-1034 .קק) 15100 ע 11160 (] 00171 סס ). 

[18] 3310100, 0. £., 812012 ) .£ .£ , 1610¥ ) 821210601 & ,. 3 ,־ 18106¥61 ס 8 ,.¥ ,ץ 1266¥810 ־נ 3£ ,.א , 1¥2812¥2 ־ ). 
60 0 ס . 8 ־ 16160101 ) 6 ־ 01162101 סס 1211 ק 12 ) 2 -ס 0 §ח 11 ח 000 ־ 1 ק ץ 6 8 > 1 ־ 01 ׳\\ 211161 ־ 0601 §ח 1 '\ 0 ־ 1 ק X1 01111 ק 06 ק ע 
00X1-? :1207.0580. 

[19] 3310100, 0. £., 0810(361661161 ק 366 ־ 46111101 ־ 01 § 21 §ח 111 ־ 12811021 ¥ .( 2006 ) ¥\ .¥ , £611 & ,. 8 , 0 ־ 
0618. 1X611001 1527-1554 ,( 7 ) 78 , 11101100 (ןסססס . 

[20] 3310100, 0. £. (2007). £0 1 0010 ( 1 111 0655 § £00 • 68 § 1012 216 ־ 6061 § 10 0 ־ 1621 81 ־ 16 , 68 ק 862 111/0 § 000 ־ 
06560001 1, 165 , 535-547. 

[21] 3310100, 0. £., 3)2 ־ 1101 ס 116 ־ 01 § 21 "ק 2106-8166 ׳\\ " £116 .( 1995 ) . ¥1 .£ , 14621 & ,. 3 . 8 ,ץ 6 ־ £1 י•? , 20 ץ 
00801158 ,( 5214 ) 268 , 8016006 . ¥01308 \ 061 21 ־ 0601 1 ) ¥186 ־ 61 ק . 

[22 ]331166 ס! 18 ) 8000 01 6860121100 ־[ק 6 ־ 1 86 ־ 21 ק 8 " .( 2008 ) 3 \ ¥1 ,־ 301 ) 22 ; 1918 , 6686 ׳\\ 6 ( 3 ;£ , 1102 ) 0012 ־ 
0112116816611/6(1 20(1 4 01616 : 6 . 8101 £ 08 ? ."\ 6 )־ 601 §־ . 

[23] 320068, £. ¥., 301011 11¥6 ק ¥32 .( 1991 ) .£ . 0 , 3310100 & ,. 3 . 8 , 320 \\ 140 ,. 3 . 63 , 120 )־ x10103 68 ־ 
10021 6x18. 1 ־ 61 ק X611001 001111)0101100, 3(1), 79-87. 



53 


[24] £ ק 400 116 ׳% 01388111031100 1013£0001 .( 2012 ) .£ . 0 , 141111:011 0 § ,. 1 ,־[ 0%0 ) 80181 ,.¥ ,ץ)[ 12110%8 ־נ 
000%010110031 110111 111 ? 11 2/7 8 6 0116 <]־!).£ 161 . 8 > 1 ־ 01 ׳ 001% 111 ־ X11 111/06111011011 ]16066881118 8}'8161118 (1097 .קק - 

1105). 

[25] 1x0111, ¥., 6011011, 6., 60110410 קק 3 110£ ד 341001-638041031 ־ €1 .( 1998 ) .? ,־ 14311001 & ,.¥ , 10 §ס 
(100111110111 12324 ־ 2278 ,( 11 ) 15 § .£££! 0/1/70 £60666411 7£5 . 000£011100 ־ . 

[26] 600110, ¥., & 601111110 ) 311 , 0006 ק 8 , 13£08 ס 1 ־ 101 8 ) 14 ס׳ 01% ס €00%010110031 .( 1995 ) .¥ ,ס 1 §ס 
801 111 [ס ){ 00 ( 11 ) 11011 7770 . 108 ־ X1111 1116068 011(1 1995 ,( 10 ) 3367 , 8 ) 116186061 {!))!!)ס . 

[27] 01, 1., 0110, 4¥., ¥311£, 4., & ¥11311, X. (2013). 610803£08 ־ £00001 31010£ ־ 011 ־ 1 ? %1804 ־ 01 ק 
1\40(101 06 . 088 ח 80 ־ 31 ק 310-5 ־ X18 1312.5813 :׳ ¥21 ־/ס 11 ! 1 ־ 1 ק 6 ־ 1 ק . 

[28] £111, ¥04100410 ־ 101 ) 0 1 ) 01310 ־[־ 10001 ) , 80 ־ 31 ק 8 " . 31 01 ,.€ ׳ 0% ־ X1 111 1110 111118111001130008 ץ 604 00111 ־ 

1031559-568 :( 2014 ) 17.4 08010000 ־ 0001 0 ־ 143101 ". 1011031100 ־ 11801 ) ־ 101 ) 0 1 ) 00 ־ . 

[29] 01\¥1001, 44., 01%01 סס ¥ .(־ 1001601 ק 80 , 2007 ) . 4 ,־ 1110601 ) 8011011 0 § ,. 0,14 ) 6001 ,. 3¥08,74 ־ 

3 ץ־ 010100101 ־ 1-101 ־ 8601 § 100 00110031 ־ 111 ) 61 סס 1 ) 6380 ח 1110 ח§ 000 ־ 1 § 1110 ־ 1 ׳ 6304% 00-1100 030610 ־ 1 קק 
367-371 .קק , 1 . ¥01 ) 11111011 ^ £660 1 ) 011 18 188 ס 0601116111 74 11 ( 011£ .) €011 . 91111111 . 00 ־ £1 8.10 > 1 ־ 01 ׳\\ 01 ח ). 

[30] 44338, ¥. 0., 1430000, ¥. ¥., 81 14§, ¥. ¥. (2013). 60011110131 ־ 0001 0 ־\ס־ 1 ק 1111 11108 ־ 000110031 ־ 

1 . 30,140 ¥06 ) 00.1024£ ־ £1 1018.10 ) 010 30008110 ) %014 \ 01 ס ). 

[31] 44306100 1^3114 ׳ 0% ־ 11 ) ¥0 ) ץ 811 ־ 01 '\ 1 ח 0 !)• 8130101 ץ 6 § 010 ־ §) 

[32] 1400101 ץ 811 ־ 01 ׳\ 1 ו 111 ץ 11102:6 ־ 0031 44306100 ־ 161 68 ־ 1 ס ; \\ 311401 ־ X011410100 ץ 0 ־ 000111 ) 0010 ־ ) 

[33] 63103, 6., 631110, ¥., 000,14., ?30601 ס 1 ס־ 611031 § 8011-130 .( 4000 , 2007 ) .¥ .¥ ,§ 14 & ,. 6 ,־ §: 

11 £60666 10 . 4313 1 ) 00136010 001 ־ 11 : 2 010 ־ 1031 ־ 308101 ־ x111188 0/1116 24111 111161061 61166 ־ 6011/61 1101101101 ־ 
2406111116 1601 ¥044 .( 759-766 .קק) ' 111111 ־ . 

[34] ?001011131 1101 ־ 111161 111118 ־ £601 .( 1985 ) . 4 . 6 , 4/11113018 & ,.£ . 0 , 1410100 ,.£ .ס . 1 ־ 
66]166861110110618 1)8 61 1081 40113 £3 0 § 10 ( 1 830 1401% 013 ־ €311101 .( 640.108-8506 ) 08011011 ק 60 ק ־ 01 ־ 1 ־ 
1018010000 111%0 ס§ €0 ־ . 

[35] 8630§, 44., 8060, ?.. ¥10101(13, 0%10 ־ 1 ק 101 1 ) 30 11011 ) 8130 ־ 101 ) 610 .( 2016 ) . £00,14 & ,.ס § 

€00X 010110031 14001 06 . 110118 ־ £10031 00111104 ? 1 ) €0003100310 13 '\ 8 ) 1 ־ 01 ׳ 01% 4 ? 31 ־ X18 1111 ־ 1 (] 6 ־ 1 ק 
06X16:1603.05201. 



54 


[36] 81§1:1£101 & ,. 8 י X011, 8. (2014). 6118 > 1 ־ 001 \ 1101 111 ־ 110111 ק 100 ) 101111 : 01112 ־ 10111 0 ־ 10111111 11111810 1 ) 000 ־ 1 ק . 

1 000068841% [ 01011 § 81 0114 66011 ק 8 , 0001181108 001 0011/6061106 101160010111001011 £££! 2014 ח 
( 10688 ?) (4666 .( 6959-6963 .קק . 

[37] 8 7000148 . 71111 ־ 61 1:116 111 § 004111 86 ־ 111 ק 8 06 016 ־ 1 1116 1108110111113 ( 6 .( 2015 ) . 14 , 111611 ־ 161 & ,. 74 , 1111110 ק 
101110000801601068, 35(7), 417-427. 

[38] 8110381303, 2014 ) . 111100,14 ) 831317601 & ,. 1 ,־[ 606 ) 80181 ,. 74 ,׳(:) 1266081 ־ 441 ,. 0 , 141111:011 ,.א ). 

01'0 14010111116 ] 0 70110004 7/70 .§ 6111111 ־ 61 '\ 0 0111 ־ 61 108 ־ 0611001 711 ־ 116111 1 ח 6 '\ 6 ־ 1 ק 10 ׳( 1071 16 ק 81111 \/ : 0111 ק 

£60001101% 768600011, 75(1), 19291958 ־ . 

[39] 8111810606116 7111113 ־ 061161 .( 2011 ) . 6 . 0 , 141111011 & ,. 4 , 16118 ־ 191711 ,. 1 ,־ X1 10116 1711 ־ 116111 6111 ־ 1 ־ 60111 ־ 
1161\001 7077 ) £601011111% 1400111116 011 0 011/6061106 1111601101401104 2841 0/416 70066601111%8 111 . 8 > 1 ־ ,- 
11) (1017-1024 .קק ). 

[40] 640)6, 4643; 0711171111, 16 (2000). "816 ־ 001 0181131 ׳(־ 1111711 ־ 1 ק 111 617111011 ־ 1 ־ 16001 ) 1 ) 7111 11113 ) 00 86 ־ 711 ק \ 

(611 1276 ־ 1273 : 287 . 80160106 ." 0181011 31 ־ 1131111 103 ־ 

[41] 4^30, 6., 26116131 ־ 06116111 12311011 ־ 146311131 .( 2013 ) . 14 , 3118 ־ 661 & ,. 6 . 67 , 700 > ,. 8 , 263113 ,. 64 ,־ 

4 1010111116 001 0 011/6061106 1111601101401104 3041 0/416 700066441%8 111 . 11601 ח 00 ק 0 ־ 11 ) 1181113 68 ־ז 0 ׳\\ 61 ח 
£60101411% (1014£-13) (1058-1066 .קק ). 

[42] ¥0, 6., \¥3113, 14., 06611, 7., & 61, 64. (2015). 6111 301103110118 1 ) 6011616 ־ 1 06 6031031100 1031 ־[ 1 ק 1 ת 
0011001111101131 0611001 00 . 17 ־ X1100 01111 ק 06 ק ׳ X111505.00853 :׳ . 

[43] 263113, 8., 630, ¥., 26011, ?., 413113, 44., & 6)31, 6. (2014). 10168 ־ 3111611001 ־ 0601 ק 100 ) 00103 ־ 1 ק 
601 700068841% 81%0104 01014 66011 ק 8 , 6 .1104 00118408 ־ 110101 ־ 811 11161113 ־ 861 1 ) 311 0111 ק 0 ז 4 > 1181113 6677864 ־ 
(10X887), 2014 ££££ 10116011011100104 0011/6061106 011 (4666 .( 6849-6853 .קק . 



